快手、孩子王、华为等专家分享大模型在电商运营、母婴消费、翻译等行业场景的实际应用 了解详情
写点什么

数据科学的革命之区块链(第一部分)

  • 2018-05-17
  • 本文字数:1790 字

    阅读完需:约 6 分钟

看新闻很累?看技术新闻更累?试试下载 InfoQ 手机客户端,每天上下班路上听新闻,有趣还有料!

预测分析 - 利用群体智慧的力量

现阶段的机器学习在一些复杂的社会现象的预测上是存在困难的,但是我们可以看到利用群体智慧这种方式在处理类似问题上的巨大发展潜力。群体智慧 指由个体组成的集体性的决策能力。在影响和预测人类行为等类似方向上,利用集体智慧已经展现出了良好的效果。一些相关学术论文中也提到个体决策本身是存在偏见的,但是如果把很多个体的决策放到一起,那么个体决策中偏见部分就会被消除,从而得到一个非常正确的预测结果。关于群体智慧模型方面也存在几种不同的方式,比如允许一个群体中的不同个体在进行决策时可以影响其他个体,或者被影响。这种群体智慧模型我们称之为 Crowds Within。

最近在 社会物理学 领域这种研究方式又重新出现。这个领域遵循一些简单的原则,并通过大规模的人类活动数据来发现并预测群体的一些行为模式。MIT 媒体实验室的 Alex Pentland 在他的区块链公司 Endor 中正在尝试将社会物理学与区块链技术相结合,创造出一个去中心化的协议来进行预测分析。用户可以在这个平台上通过一些简单的自然语言(比如提问 “ 谁会赢得总统大选 ”),然后得到由社会物理学基于大量的独立个体样本回答计算得出的最终答案。这个平台跟现存的预测市场比较类似,但是其最大的优点就是去中心化。因为这种模式不会像中心化的那些预测市场一样,可能受到人为操纵或者影响的风险,所以平台给出的结果可以保证不会被平台的拥有者篡改。此外,因为所有的预测都是公开透明的(每个人都可以看到),所以预测结果被第三方恶意篡改的风险也很小。

知识共享 - 创建知识共享经济

目前数据科学和机器学习存在一个问题是,很多团队或个人在进行模型研发和设计的时候是从零做起,很难从现有的、别人已经完善了的模型中汲取相关经验,或者直接采用。重复造轮子的过程数不胜数,经常会发现辛苦研究的内容是别人早已经做好并且完成了优化的。此外,人们还经常发现有了模型之后,却缺乏相关的数据进行训练和调优,完全不知道是否有其他在处理类似问题的团队已经有相关的数据。总结一下,其实就是缺乏一种在机器学习领域的知识共享途径和方式;我们当前缺乏一种简单有效的模型学习和分类的平台。

这也是 Synapse AI 这样的项目尝试去解决的问题。 Synapse AI 初衷是创建一个数据提供者、机器学习者,以及模型使用者这样的三方平台,在其之上可以很好地进行相关的知识、想法的分享,并慢慢形成一个稳定的循环经济生态。而通过代币来保证的这个系统的经济生态,可以让有需求的团队能从第三方团队那里获取所需的服务或数据,也是一种对服务提供方的经济奖励。通过这个平台,机器学习方也可以查询到更多的数据和更多的功能,类似于一种主动学习的方式。

众包打标 - 超越亚马逊的打标平台 Mechanical Turk

像亚马逊 Mechanical Turk 一样的打标平台,不论对数据提供者还是打标的人们来说,都处于一个比较低效的状态。这些中心化的平台是通过冗余的方式来保证打标效果的一致性和正确性。所以,一份相同的数据,会被多次进行甄别,并从中选择出主流标签作为最终的结果。对于数据的提供者来说,这是一种低效的办法,因为他们需要为冗余的甄别操作进行付费。而对于负责进行打标的人员来说,冗余的数据也为他们产生了不必要的工作负担。

Gems 这样的的采用代币作为货币的去中心化平台,其初衷就是为了解决上述的问题。Gems 主要面向三类用户:矿工(负责打标的人),质量管理员(负责验证打标效果的人),以及请求人(提供打标任务的人)。Gems 使用代币机制来保证他们这个平台内的健康稳定的经济体系。每个团队使用代币来完成交易,并且当他们的工作质量没有达到预期的时候,他们会被扣除所持有的代币作为一种惩罚方式。此外,Gems 还基于一套复杂的信任和荣誉机制来构建了平台的服务历史,并且平台之中每个人的历史操作对于他人来说都是可见的(因为可能有一些持有大量代币的团队可能会以损失部分代币为代价发起一些恶意攻击)。代币的方式对新用户也是非常有好的,因为代币并不需要你拥有一个银行账户。

查看英文原文 how blockchain will revolutionize data science


感谢杜小芳对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2018-05-17 19:001786

评论

发布
暂无评论
发现更多内容

数实融合!低代码推动工业数字化转型走“深”向“实”

优秀

低代码 数字化转型 工业数字化

Ulysses for Mac(Markdown文本编辑软件) 33中文激活版

mac

文本编辑器 苹果mac Windows软件 Ulysses

深入解析Linux进程管理机制

EquatorCoco

Linux 运维

VPN证书过期问题梳理

Lane

如何撰写How-To文章:7个高效步骤(新手SEOer向导)

九凌网络

如何实现通过API接口对商品信息进行实时更新和维护?

技术冰糖葫芦

API 文档

结算系统开发,直销系统开发,交易所开发,dapp开发,公链开发 商城开发,

Geek_8da502

腾讯云大数据ES荣获信通院优秀案例奖,云原生实力再获认可!

腾讯云大数据

ES

11 | 排序(上):为什么插入排序比冒泡排序更受欢迎

鲁米

分享一个LCD驱动框架

不在线第一只蜗牛

教程 开发框架 lcd

解决云电脑无法使用本地终端连接的USB设备

天翼云开发者社区

云计算 云电脑

特权账号管理之医疗行业篇

尚思卓越

数据库 运维 网络安全

一文读懂 ChatGPT 工作原理

秃头小帅oi

低代码 AIGC ChatGPT

开源 | Spark Commiter 深度解读:Apache Spark Native Engine

网易数帆

大数据 spark 开源 Gluten

随着教育行业的内卷,持续激活平台用户体验是关键

Geek_2305a8

安全加密传输大文件对金融行业的意义以及重要性

镭速

大文件传输 加密传输大文件

最新大文件传输解决方案,一站式解决网站文件上传下载速度慢问题

镭速

大文件传输

Netty源码学习7——netty是如何发送数据的

不在线第一只蜗牛

学习 源码 Netty

重磅!天翼云斩获2023年中国通信学会科学技术奖一等奖

天翼云开发者社区

云计算

Amoro 试用&贡献活动 | 10月社区评选揭晓

Amoro Community

大数据 开源 湖仓一体

人工智能与供应链行业融合:开启智能化供应链的新时代

不在线第一只蜗牛

人工智能 供应链 智能化

Spring到底是如何解决循环依赖问题的?

高端章鱼哥

spring 循环依赖

云电脑:IO虚拟化实现的技术分析

天翼云开发者社区

云计算 虚拟化 云电脑

2023Q4 私有化版本发布,和鲸 ModelWhale 持续赋能大科研、高校教改的 AI for Science

ModelWhale

人工智能 云计算 数据分析 超算 私有化部署

Microsoft Word LTSC 2021 for mac v16.79.2永久激活版

mac

word 苹果mac Windows软件 文字处理软件

Spring Boot 项目代码混淆实战:保护代码安全,防止泄露

安全测试工具Burpsuit和OWASP ZAP使用入门指南

快乐非自愿限量之名

测试工具 安全测试 入门指南

【哈尔滨学院主办】第三届高性能计算与通信工程国际学术会议(HPCCE 2023)

搞科研的小刘

通信 计算机 高性能计算 通信工程

文心一言 VS 讯飞星火 VS chatgpt (149)-- 算法导论12.2 4题

福大大架构师每日一题

福大大架构师每日一题

Java医院绩效考核系统源码支持二次开发

源码星辰

Java

数据科学的革命之区块链(第一部分)_语言 & 开发_Devin Soni_InfoQ精选文章