写点什么

Hortonworks 章剑锋访谈:Tez、数据科学和隐私安全

  • 2014-09-20
  • 本文字数:1979 字

    阅读完需:约 6 分钟

MapReduce 已经开始显现老化的迹象,局限性越来越明显。Tez 作为下一代 hadoop 的执行引擎与传统的 MapReduce 相比做了很大的改进和优化,将计算模型直接建立在 DAG 上面,比传统的 MapReduce 更加直接,灵活,在性能上有很大的提升。同时由于 Tez 从项目开始就集成了 Yarn,从而对于整个计算资源的 Context 了解的更加清楚,这也有助于性能的优化。

本次 QCon 上海的演讲嘉宾章剑锋接受了 InfoQ 邮件采访,访谈中谈到他正在使用的 Tez 平台、数据科学这个行业以及数据挖掘中的隐私问题。

受访者简介

章剑锋(@章剑锋 _Jeff),Hortonworks Member of Technical Staff。很早的接触到了 hadoop,从 2009 年开始使用 pig,然后一步步延伸到 hadoop,nosql,statisitcal data anlytics 等大数据领域。可以说一路走来都是在和 data 打交道,不管是从底层的 infrastructure,还是更上层的统计数据分析,Machine Learning。和 data 打交道有一件很有趣,很有挑战,也能给人带来快乐的事情。喜欢技术,喜欢桌球,喜欢 K 歌,喜欢和人 brainstorming:)

InfoQ:MapReduce 这么多年,今日被吐槽的次数逐渐增多,您对 Tez 比较熟悉,请您给大家讲讲 MapReduce 的颓势和 Tez 的好处。

章剑锋:首先 MapReduce 是一个很 General 的计算框架,General 的东西应用面很广,可以解决很多问题,可是在解决一些问题的时候通常不会是最优的方法,这是一个 trade-off。以前人们急于解决单机不能处理的大数据问题,对性能要求相对较少,现在随着技术和业务的发展,对性能和计算场景提出了更高的要求。与 MapReduce 相比较,Tez 在性能方面更加出色,同时在计算框架方面更加灵活,MapReduce 相对来说是一个比较死的框架,所有的 MRJob 都只能有一个 Mapper 和 Reducer,一个复杂的问题不得不分拆出很多个 MRJob,而 Tez 在这方面更加灵活,一个复杂的任务就是一个 TezJob。

InfoQ:Tez 想要获得广大开发者认可的话,您觉的只是时间问题,还是有亟待改善的地方?

章剑锋:首先 Tez 从项目成立到现在为止只有 1 年时间,还有很多事情要做。我认为以下几点是要继续改善的:

  • API 的易用性,Tez 的 API 相对来说不是那么好用,相对于 MapReduce 的 API 来说,也不是那么好用,Tez 0.5 已经在这方面做了很多工作(Tez-690)
  • 吸引更多的用户使用,任何东西都不能闭门造车,很多问题只有在真实环境下才能出现,我们希望能够收集到更多用户的反馈,推广 tez 的使用。

InfoQ:看到您简介中,对机器学习应用也很有了解,请您介绍一下这方面主要做了些什么工作?

章剑锋:研究生是学 NLP 的(自然语言处理),所以对 Machine Learning 也算有一定经验,做过一些基础的文本分类,关系抽取方面的工作。我认为机器学习可能是继大数据之后另一个热点。

InfoQ:您可以算的上是数据科学家了,请问平时跟数据打交道的时候,和跟代码打交道有什么不同呢?

章剑锋:首先我觉得和数据打交道要非常小心,代码可以有 bug,但数据对 bug 的容忍度基本上就是 0。一旦你的数据分析出了结果分享出去了,后来又发现了 bug,就很麻烦,你的客户对你的信任度会降低,下次你出分析结果的时候,人家就会带有怀疑的眼光来看了。数据分析是一个很复杂的系统工程,涉及数据的采集,清理,分析,可视化等等一系列工作,任何一个步骤出错,都会影响到最终的业务。

InfoQ:近年来数据科学日益火爆,您觉得目前业界对数据的应用是否到位呢?有没有什么大数据应用是您特别看好的?

章剑锋:对于国内来说数据的应用应该还很不够,对于非 IT 类公司就不用说了,就算是一个互联网公司对数据的重视度也不够。国内的互联网公司往往在前期比较注重开发速度,各种产品推出的时候都比较粗糙,没有数据来验证这个 feature 到底是好还是不好,对于数据收集与分析这种不是立竿见影的东西都不会有太多投入。当然最近几年已经好多了,大家开始重视数据分析,未来对数据分析的人才也会急剧增加。由于最近的移动互联网和穿戴式设备的兴起,我相信前几年炒得物联网概念将会再次兴起,大数据和数据科学在这一方面将会起到很大的作用。

InfoQ:看您微博您还关心人工智能、图灵测试,您能谈谈前一阵子传出的图灵测试已经被突破的新闻么?

章剑锋:大概浏览过这个新闻,技术创兴永远不会停止,相信未来 IT 技术将在人类生活中产生更加重要的影响。

InfoQ:大数据时代,机器越来越智能,越来越了解用户,会不会在某种程度上造成安全隐患?

章剑锋:当然这会是一个问题,就算是很注重个人隐私保护的美国也会有这样的问题(比如之前曝光的 iphone 收集用户信息的问题)。但是因为数据里面隐藏着巨大的价值,这就会诱使企业去收集数据。我觉得这也是一个 trade-off 问题,相信未来人们能找到一个平衡。

采访者简介

张天雷(@小猴机器人),清华大学计算机系博士,熟悉知识挖掘,机器学习, 社交网络舆情监控,时间序列预测等应用。目前主要从事国产无人车相关的研发工作。

2014-09-20 21:501557
用户头像

发布了 268 篇内容, 共 122.2 次阅读, 收获喜欢 24 次。

关注

评论

发布
暂无评论
发现更多内容

软件测试/测试开发丨Web自动化测试,强制等待与隐式等待

测试人

软件测试 自动化测试 测试开发

阿里大佬随手甩出一份覆盖全网的微服务架构笔记,让我涨薪60%

程序知音

Java 微服务 spring-cloud 后端技术 spring-boot

如何在Windows中设置应用程序开机启动?

IT蜗壳-Tango

Apache Hudi 在袋鼠云数据湖平台的设计与实践

袋鼠云数栈

数据湖 Hudi Apache Hudi

奇妙JVM(一):Java程序员必须知道的神秘黑箱

xfgg

Java JVM

缺乏集成和标准的协作框架,企业如何确保API质量?

龙智—DevSecOps解决方案

git API API 接口

Scrum的执行过程及产品Backlog梳理的目的、时间、内容

顿顿顿

Scrum 敏捷开发 敏捷开发管理 敏捷项目管理

开发者福利来了 | 京东云全系核心产品公开比价:我们承诺,买贵就赔!

京东科技开发者

数据库 云主机 京东云 云主机厂商 企业号 5 月 PK 榜

阿里P9架构师推荐的Spring领域巅峰之作,颠覆了我对Spring的认知

程序知音

Java spring java架构 Java进阶 后端技术

Kyligence 客户案例招商银行批发业务分析平台获评金融数字化最佳实践案例

Kyligence

金融数字化 指标平台

2023上海国际嵌入式展 | 如何通过版本控制与IP管理建立嵌入式开发的单一可信数据源

龙智—DevSecOps解决方案

版本控制 嵌入式开发 静态代码扫描

透明LED显示屏与常规屏的区别

Dylan

LCD1602液晶显示屏 显示器 LED显示屏

MaxCompute 发布智能物化视图,CU 算力节省 14%

云布道师

浅谈电解电容在电路设计中的作用

华秋PCB

电路 元器件 PCB PCB设计 电解电容

SSH和SFTP是否相同

镭速

火山引擎DataLeap联合DataFun发布《数据治理知识地图》

字节跳动数据平台

数据治理 数据开发 数据库开发 数据研发

移动应用架构与React Native、Flutter的关联

Onegun

flutter 移动应用 ReactNative 软件应用架构

上海国家会计学院杨寅: 数据、业务、技术三大事项相互融合,促进财务发展

用友BIP

智能会计 价值财务

大型企业建设财务共享中心需要重视的5个核心要素

用友BIP

财务共享

NFTScan 正式发布 Bitcoin NFT 浏览器,支持 Ordinals NFT 和 BRC20 资产

NFT Research

Bitcoin NFT\

软件测试 | LDAP常见操作指南

测吧(北京)科技有限公司

测试

能让中国联通青睐的财务共享智能报账平台是什么样的?

用友BIP

财务共享

我的 UI 组件库发布了!

DUFU

JavaScript Svelte 移动端 Tailwind UI组件库

数学计算软件开发巨头MathWorks助力嵌入式开发创新,将MATLAB、Simulink与Perforce Helix Core集成

龙智—DevSecOps解决方案

版本控制 数学计算软件 MathWorks

零信任之访问代理

Flomesh

Pipy

财务共享真的有价值吗?

用友BIP

财务共享

在 Kubernetes 上实现高速应用交付

NGINX开源社区

nginx Kubernetes

快速易用pdf编辑器:PDF Expert 中文激活版

真大的脸盆

Mac Mac 软件 PDF编辑 编辑PDF文件

财务共享中心成功建立!用友帮助河南水投集团打造财务效率新高地

用友BIP

财务共享

软件测试 | 角色介绍

测吧(北京)科技有限公司

测试

Hortonworks章剑锋访谈:Tez、数据科学和隐私安全_QCon_张天雷_InfoQ精选文章