写点什么

Mirador:用于可视化搜索复杂数据集的免费工具

  • 2014-10-19
  • 本文字数:1741 字

    阅读完需:约 6 分钟

Mirador 是一个用于可视化搜索复杂数据集的开源工具。Mirador 由哈佛大学的 Sabeti 实验室、Broad 研究所以及信息可视化领域世界知名设计师 Ben Fry 创建的 Fathom Information Design 工作室联合开发的。传染病动力学中心和美国国家卫生研究院所赞助的 MIDAS 网络对 Mirador 项目提供了最初的支持。该工具主要用于复杂数据集的可视化搜索,最终目标是找到数据间可能存在的趋势或者关联,然后通过更专业的统计工具对这些趋势或者关联进行测试,推到出新的猜想。

原则上,Mirador 能够接受任何满足标准格式的表格作为输入数据。但是,开发人员对 Mirador 进行了一定的限制,使得它只能接受医疗卫生、流行病和传染病相关的数据。Mirador 允许检查数据集中任何两个变量组合所构成的数据图(包括散射图、柱状图以及 eikosograms 图等),并根据感兴趣的变量的关联值对变量进行排序。基于 Mirador 工具,用户可以进一步结合 Miralib、Gephi 等进行更加复杂的分析。例如,通过把 Mirador 的输出导入到 Gephi 中,用户可以计算网络模块度、节点集中度等等。

目前,Mirador 已经成为通过 GNU 公共授权 2.0 版本发布的开源项目。用户可以通过 Github 来下载 Mirador 工具的 Windows 版本 OS X 版本。更多 Mirador 相关的信息,读者可登录其官网或者 GitHub 查看。

更多内容可参见:

  • Mirador 数据竞争:探索公共数据、利用新发现赢取奖项 目前,Sabeti 实验室已经发起了一场关于上传数据赢大奖的竞赛。在 9 月 28 日至 10 月 28 日期间,用户只要通过应用程序上传自己的新发现到自己的账户就可以参与竞争。最终,Sabeti 实验室会召集相关领域的专家评选出数据集的前三名,并给与现金奖励。
  • 关联数据的网络表示:关于如何把带 Python 脚本的 Mirador 输出信息与其他可视化工具结合起来产生关联矩阵网络表示的教程 Mirador 能够检查数据集中任何两个变量组合所构成的数据图,并根据感兴趣变量的关联值对变量进行排序。它并不能计算所有变量间的关联性。但是,这一关联性正是产生系统关联矩阵的可视化表示以及数据中依赖结构的总体图像所必须的。为了计算该关联性,教程指出可以首先导出所感兴趣的变量的数据。然后,利用 Mirador 中的提供底层统计计算功能的数据库 Miralib 来计算关联矩阵。最后,采用 Gephi 或者其他软件打开关联矩阵即可完成网络数据的可视化工作。
  • 带 Mirador 的统计建模:关于如何在机器学习中使用 Mirador 的教程 该教程主要介绍了如何利用 Mirador 所找到的解释变量来训练一个逻辑表达式和神经网络预测器。教程使用示例文件夹中的肝炎数据集作为输入。其中,共包含寻找解释变量、输入缺失值、从已有数据中学习模型、逻辑表达式、神经网络等五个步骤。Mirador 主要负责在第一步中寻找解释变量,输出这些变量相关的数据。最终,所构建的预测器在测试集中的成功率为 85.11%。
  • 在复杂数据集中寻找关联:关于 Mirador 设计和开发的帖子
  • 定量测定关联性:描述基于互信息测量关联性的帖子 该帖子主要描述了互信息的定量测量方法,从而可以对数据的关联性进行排序。对包含大量变量的负责数据数据集,对其中变量的两两相关性进行表示是非常困难的。通常,这类工作需要很多的图标才能表示完整。然而,这些大量的图标中只有很少一部分是表示相关变量对的。为了能够提高效率,就需要某种索引或者等级制度来标注统计相关性。以互信息量作为标准正好可以作为一种尝试。由美国数学家 Claude E. Shannon 所提出的香农熵出发,互信息的概念被慢慢引入。最后,作者展示了如何利用互信息作为统计相关性测量标准来更清晰的表示变量之间的关系。
  • 可视化表示关联性:讨论利用 eikosogram 绘图来表示条件依赖的帖子 成功可视化的一个重要标志就是它能够揭露出不同变量之间的某种未知关系,从而让观察者可以方便的找到数据背后隐藏的信息。如果变量可以用实数表示,散点图是一种经常被使用的、用来表示两个变量关系的数据分析图。然而,对于一些变量,散点图并不能直观的展示出变量间的真正关系。作者发现,利用 eikosogram 图表示是最有效解决散点图问题的方法。

感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014-10-19 03:202247
用户头像

发布了 268 篇内容, 共 123.2 次阅读, 收获喜欢 24 次。

关注

评论

发布
暂无评论
发现更多内容

如何使用、部署 Auto-GPT?系统开发技术分析

Congge420

系统开发 区块链、 autogpt

2023牛客网最全互联网大厂Java面试八股文上线

架构师之道

Java 面试

TF游戏Ai智能系统开发

Congge420

系统开发 区块链、 智能运维AIOps

BSC智能链游戏链系统开发解析

Congge420

区块链追溯系统开发 元宇宙 元宇宙系统开发

从热爱到深耕,在开发路上的他们勇敢逐梦

HarmonyOS SDK

HMS Core

为什么MySQL单表不能超过2000万行?

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号 5 月 PK 榜

深度学习基础入门篇[9.1]:卷积之标准卷积:卷积核/特征图/卷积计算、填充、感受视野、多通道输入输出、卷积优势和应用案例讲解

汀丶人工智能

人工智能 神经网络 深度学习 卷积网络 卷积相关算子

软件测试/测试开发丨Python控制流–分支判断和循环

测试人

Python 软件测试 自动化测试 测试开发

非常实验——在SSH下通过终端浏览网页

吴脑的键客

浏览器 终端工具

2023数字中国建设峰会:百度点石获开放群岛开源社区优秀共建单位

百度安全

【实践篇】领域驱动设计:DDD工程参考架构 | 京东云技术团队

京东科技开发者

领域驱动设计 DDD 企业号 5 月 PK 榜 工程架构

LED显示屏如何做到节能

Dylan

效率 能源 节能 LED显示屏

HashTable 在蚂蚁转化归因中的极致运用

阿里云大数据AI技术

大数据 开发者 企业号 5 月 PK 榜

靠AI自动生成视频撸自媒体收益,月入5000+

派大星

ChatGPT4

深度学习基础入门篇[9.2]:卷积之1*1 卷积(残差网络)、2D/3D卷积、转置卷积数学推导、应用实例

汀丶人工智能

人工智能 神经网络 深度学习 卷积网络 卷积核

用写代码的方式画图-试下PlantUML吧 | 京东云技术团队

京东科技开发者

开发工具 PlantUML 画图软件 企业号 5 月 PK 榜

2023新版Java面试题1300问,刷完直接拿offer!

采菊东篱下

java面试

关于PCBA元器件布局的重要性

华秋PCB

工具 元器件 PCB 布局 PCB设计

敏捷开发:新一代软件开发模式的优越性与挑战

xfgg

Java 架构 开发效率

2023语言与智能技术竞赛开辟“双赛道”:寻找“全民测评官”,探索AI多模态能力

飞桨PaddlePaddle

看完这篇,DWS故障修复不再愁

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号 5 月 PK 榜

OpenHarmony社区运营报告(2023年4月)

OpenHarmony开发者

OpenHarmony

火山引擎DataTester:小改动带来大收益,A/B实验助力幸福里APP精准优化

字节跳动数据平台

ab测试 A/B 测试

Seata 的可观测实践

阿里巴巴云原生

阿里云 云原生 seata

硬核!互联网资深大佬手码高并发编程速成笔记(2023版)限时开源

做梦都在改BUG

Java 并发编程 高并发

软件测试/测试开发丨Python基本数据类型之字符串

测试人

Python 软件测试 自动化测试 测试开发

rt下降40%?程序并行优化六步法 | 京东云技术团队

京东科技开发者

性能优化 异步编程 企业号 5 月 PK 榜 多线程优化 并发框架

线上问题处理案例:出乎意料的数据库连接池 | 京东云技术团队

京东科技开发者

数据库 GC 线上问题 数据库连接池 企业号 5 月 PK 榜

抠图党福音:教你一键分割图像

华为云开发者联盟

华为云 华为云开发者联盟 企业号 5 月 PK 榜 人工资高hi嗯呢该 分割图像

为什么我们拥有庞大的语言模型,而Vision Transformers的规模却很小?

Baihai IDP

人工智能 深度学习 计算机视觉 白海科技 Vision Transformers

【程序员日记】——从业务编排到低代码 | 京东云技术团队

京东科技开发者

低代码 业务 企业号 5 月 PK 榜 业务编排

Mirador:用于可视化搜索复杂数据集的免费工具_大数据_张天雷_InfoQ精选文章