写点什么

Hortonworks 章剑锋访谈:Tez、数据科学和隐私安全

  • 2014-09-20
  • 本文字数:1979 字

    阅读完需:约 6 分钟

MapReduce 已经开始显现老化的迹象,局限性越来越明显。Tez 作为下一代 hadoop 的执行引擎与传统的 MapReduce 相比做了很大的改进和优化,将计算模型直接建立在 DAG 上面,比传统的 MapReduce 更加直接,灵活,在性能上有很大的提升。同时由于 Tez 从项目开始就集成了 Yarn,从而对于整个计算资源的 Context 了解的更加清楚,这也有助于性能的优化。

本次 QCon 上海的演讲嘉宾章剑锋接受了 InfoQ 邮件采访,访谈中谈到他正在使用的 Tez 平台、数据科学这个行业以及数据挖掘中的隐私问题。

受访者简介

章剑锋(@章剑锋 _Jeff),Hortonworks Member of Technical Staff。很早的接触到了 hadoop,从 2009 年开始使用 pig,然后一步步延伸到 hadoop,nosql,statisitcal data anlytics 等大数据领域。可以说一路走来都是在和 data 打交道,不管是从底层的 infrastructure,还是更上层的统计数据分析,Machine Learning。和 data 打交道有一件很有趣,很有挑战,也能给人带来快乐的事情。喜欢技术,喜欢桌球,喜欢 K 歌,喜欢和人 brainstorming:)

InfoQ:MapReduce 这么多年,今日被吐槽的次数逐渐增多,您对 Tez 比较熟悉,请您给大家讲讲 MapReduce 的颓势和 Tez 的好处。

章剑锋:首先 MapReduce 是一个很 General 的计算框架,General 的东西应用面很广,可以解决很多问题,可是在解决一些问题的时候通常不会是最优的方法,这是一个 trade-off。以前人们急于解决单机不能处理的大数据问题,对性能要求相对较少,现在随着技术和业务的发展,对性能和计算场景提出了更高的要求。与 MapReduce 相比较,Tez 在性能方面更加出色,同时在计算框架方面更加灵活,MapReduce 相对来说是一个比较死的框架,所有的 MRJob 都只能有一个 Mapper 和 Reducer,一个复杂的问题不得不分拆出很多个 MRJob,而 Tez 在这方面更加灵活,一个复杂的任务就是一个 TezJob。

InfoQ:Tez 想要获得广大开发者认可的话,您觉的只是时间问题,还是有亟待改善的地方?

章剑锋:首先 Tez 从项目成立到现在为止只有 1 年时间,还有很多事情要做。我认为以下几点是要继续改善的:

  • API 的易用性,Tez 的 API 相对来说不是那么好用,相对于 MapReduce 的 API 来说,也不是那么好用,Tez 0.5 已经在这方面做了很多工作(Tez-690)
  • 吸引更多的用户使用,任何东西都不能闭门造车,很多问题只有在真实环境下才能出现,我们希望能够收集到更多用户的反馈,推广 tez 的使用。

InfoQ:看到您简介中,对机器学习应用也很有了解,请您介绍一下这方面主要做了些什么工作?

章剑锋:研究生是学 NLP 的(自然语言处理),所以对 Machine Learning 也算有一定经验,做过一些基础的文本分类,关系抽取方面的工作。我认为机器学习可能是继大数据之后另一个热点。

InfoQ:您可以算的上是数据科学家了,请问平时跟数据打交道的时候,和跟代码打交道有什么不同呢?

章剑锋:首先我觉得和数据打交道要非常小心,代码可以有 bug,但数据对 bug 的容忍度基本上就是 0。一旦你的数据分析出了结果分享出去了,后来又发现了 bug,就很麻烦,你的客户对你的信任度会降低,下次你出分析结果的时候,人家就会带有怀疑的眼光来看了。数据分析是一个很复杂的系统工程,涉及数据的采集,清理,分析,可视化等等一系列工作,任何一个步骤出错,都会影响到最终的业务。

InfoQ:近年来数据科学日益火爆,您觉得目前业界对数据的应用是否到位呢?有没有什么大数据应用是您特别看好的?

章剑锋:对于国内来说数据的应用应该还很不够,对于非 IT 类公司就不用说了,就算是一个互联网公司对数据的重视度也不够。国内的互联网公司往往在前期比较注重开发速度,各种产品推出的时候都比较粗糙,没有数据来验证这个 feature 到底是好还是不好,对于数据收集与分析这种不是立竿见影的东西都不会有太多投入。当然最近几年已经好多了,大家开始重视数据分析,未来对数据分析的人才也会急剧增加。由于最近的移动互联网和穿戴式设备的兴起,我相信前几年炒得物联网概念将会再次兴起,大数据和数据科学在这一方面将会起到很大的作用。

InfoQ:看您微博您还关心人工智能、图灵测试,您能谈谈前一阵子传出的图灵测试已经被突破的新闻么?

章剑锋:大概浏览过这个新闻,技术创兴永远不会停止,相信未来 IT 技术将在人类生活中产生更加重要的影响。

InfoQ:大数据时代,机器越来越智能,越来越了解用户,会不会在某种程度上造成安全隐患?

章剑锋:当然这会是一个问题,就算是很注重个人隐私保护的美国也会有这样的问题(比如之前曝光的 iphone 收集用户信息的问题)。但是因为数据里面隐藏着巨大的价值,这就会诱使企业去收集数据。我觉得这也是一个 trade-off 问题,相信未来人们能找到一个平衡。

采访者简介

张天雷(@小猴机器人),清华大学计算机系博士,熟悉知识挖掘,机器学习, 社交网络舆情监控,时间序列预测等应用。目前主要从事国产无人车相关的研发工作。

2014-09-20 21:501548
用户头像

发布了 268 篇内容, 共 121.8 次阅读, 收获喜欢 24 次。

关注

评论

发布
暂无评论
发现更多内容

Django笔记四十三之使用uWSGI部署Django系统

Hunter熊

Python django 部署 uwsgi

洞察开源代码平台“创新力”|2023开放原子全球开源峰会开源协作平台分论坛成功举办

开放原子开源基金会

开源 开放原子全球开源峰会 开放原子 开源协作平台

遵循 CI/CD 最佳实践,让高效贯彻整个团队

极狐GitLab

DevOps 自动化 持续集成 CI/CD 持续交付

解析Spring内置作用域及其在实践中的应用

华为云开发者联盟

开发 华为云 华为云开发者联盟 企业号 6 月 PK 榜

GOTC峰会Sermant发布1.1.0-beta版本,带来哪些提升?

华为云开源

#云原生 #开源 流量治理 #微服务

你一定要悄悄学会怎么把Vimeo视频保存到手机相册,然后惊艳所有人!

frank

把数字中国,建立在行业感知的底座上

脑极体

行业感知

基于Spark的大规模日志分析

华为云开发者联盟

开发 华为云 华为云开发者联盟 企业号 6 月 PK 榜

HarmonyOS 极客马拉松2023 正式启动,诚邀极客们用键盘码出无限可能!

说山水

C语言代码封装MQTT协议报文,了解MQTT协议通信过程

DS小龙哥

6 月 优质更文活动

云小课|RDS for MySQL参数模板一键导入导出,参数配置轻松搞定

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号 6 月 PK 榜

华为云CodeArtBuild减负!云端编译构建,让你的开发省时省力!

华为云PaaS服务小智

云计算 代码 华为云 编译构建

百度文心一格x京东618:打造电商行业首个AI线下广告,节省80%制作成本

飞桨PaddlePaddle

百度 飞桨 AIGC 京东618

TrafficRoute:一体化的DNS解析和流量调度套件

火山引擎边缘云

技术 流量 解析 火山引擎边缘云

2023-06-15:说一说Redis的Key和Value的数据结构组织?

福大大架构师每日一题

redis 福大大架构师每日一题

WeOpsV4.1重磅出击,日志监控功能横空出世!

嘉为蓝鲸

运维 日志 weops 嘉为蓝鲸

人体分割识别图像技术的挑战和未来发展

来自四九城儿

微软增加100亿美元AI收入,Salesforce如何对垒?

B Impact

UI自动化的稳定性和效率

QE_LAB

自动化测试 UI自动化测试 appium

六大类型JavaScript题型

不叫猫先生

JavaScript 6 月 优质更文活动

人体分割识别图像技术的原理及应用

来自四九城儿

C语言编程语法—排序算法

芯动大师

C语言 排序算法 6 月 优质更文活动

Spring框架中的线程池

demo123567

spring 线程池

开源教育决定未来|2023开放原子全球开源峰会开源教育与人才分论坛成功召开

开放原子开源基金会

开源 开放原子全球开源峰会 开放原子 开源教育与人才

当AI大模型遇见金融,这四大挑战不容忽视

索信达控股

阿里云斩获 4 项年度云原生技术服务优秀案例

阿里巴巴云原生

阿里云 云原生

互联网行业-镭速文件传输系统方案

镭速

云计算架构设计原则

穿过生命散发芬芳

6 月 优质更文活动

中企出海之宝岛台湾假勤管理

用友BIP

中企出海

全球化财务助力跨国业务的稳定增长和持续发展

用友BIP

开战在即!与全球伙伴一起打造你的数据应用,TiDB Future App Hackathon 2023 来啦!

PingCAP

数据库 hackathon TiDB

Hortonworks章剑锋访谈:Tez、数据科学和隐私安全_QCon_张天雷_InfoQ精选文章