写点什么

百度技术沙龙第 34 期回顾:机器学习之多媒体方向的思考(含资料下载)

  • 2013-01-15
  • 本文字数:2145 字

    阅读完需:约 7 分钟

在 1 月 12 日由 @百度主办、 @InfoQ 负责策划组织和实施的第 34 期百度技术沙龙活动上,来自百度的多媒体部副总监余凯和简网联合创始人、CTO 谷文栋分享了在机器学习方面的的经验与实践,话题涉及“深度学习进展以及在语音图像中的应用”和“个性化阅读产品实践”等。本文将对他们各自的分享做下简单的回顾,同时提供相关资料的下载。

本次沙龙是 2013 年的第一次沙龙活动,同时作为 2012 年的年度回顾,InfoQ 中文站创始人兼 CEO 霍太稳阐述了 InfoQ 的宗旨以及在 2012 和 2013 年的变化。随后分享了《架构师》月刊在 2012 年的专题内容并展望了 2013 年的技术热点。在谈到媒体的责任时,他认为“不在于预测的有多准,而在于记录的有多真实”。最后他强调了 InfoQ 对于移动开发、云计算、大数据、HTML5 和 Node.js 等方面的关注。

本次沙龙还选出了 2013 年的 6 位百度技术沙龙观察员:邵磊、老杨、张俊林、石川、邓侃、沈强。在新的一年里他们将会搜集开发者的反馈,分享精彩观点,将更多精彩的内容呈献给大家。

主题一:深度学习进展以及在语音图像中的应用 (下载讲稿

百度的多媒体部副总监余凯第一个为大家分享,他谈到自从 80 年代起,以神经网络、支持向量机等为代表的浅层分类模型有了很大的进展,随后以 Kernel Learning 、Transfer Learning 为代表的 Learning with Structures 引领潮流。成功之外,他指出在图像、视频以及语音识别以及关系数据挖掘方面还存在着很大的挑战。2006 之后,使用深架构学习高级特性已成为学习模式的主流。

他回顾了深度学习在工业界的运用:

  • 微软在 2009 年首次将其运用到机器语音识别的模型中;
  • 谷歌的“Google Brain”项目;
  • 百度在语音、图像识别方面的运用;

然后,他谈到了构建 Restricted Boltzmann Machine、Autoencoder Neural Net、Sparse Coding 等内容。

主题二:个性化阅读产品实践 (下载讲稿

简网联合创始人、CTO 谷文栋第二个为大家分享,本次分享的内容以开发指阅过程中的实践为主,包括指阅的“信息基因”技术、 图数据库(neo4j)以及产品感悟来向大家展示是如何运用等。

首先他阐述了 Tim Berners Lee 对于互联网的理解,即电脑互联、文档互联与物联三个阶段。目前,百度、谷歌等的兴起与发展代表了第二个阶段的成果,而第三个阶段正在到来。出于长远的考虑,他们打造了指阅这个产品,通过关联人与物(目前是文本)的关系为用户制作个性化的内容,他们称之为“基因工程”,目前已经有 Freebase、Google Knowledge Graph 和 Pandora 等同类产品。在实现产品构想的过程中,他发现原有的关系型数据库处理这些机器学习的数据时出现了局限性,而 NoSQL 在这个方面的解决方案得到了普遍的认可。

谷文栋分享了指阅在 NoSQL 解决方案的选择:图形数据库。出于稳定性和效率的考虑,指阅团队目前为采用 Neo4j 来作为数据库,并使用 Cypher 来进行数据查询,支持聚合、排序等操作。同时他还分析了图形数据库的一些缺点,即不容易进行分片。

指阅是将文本作为图,使用 TextRank 算法来建立信息基因,在构建产品的过程中他们也发现了一些问题:

  • 信息生命周期短暂
  • 同质化问题严重
  • 用户兴趣变化捉摸不定

最后,他总结了自己的心得,即:

用关联的视角去思考问题

Open Space(开放式讨论环节)

为了促进参会者与我们每期的嘉宾以及讲师近距离交流,深入探讨在演讲过程中的疑问,本次活动依然设置了 Open Space(开放式讨论)环节。

在 Open Space 的总结环节,几位话题小组长分别对讨论的内容进行了总结。

余凯:关于机器学习的技术细节,并发散到技术的潜能,例如关于多人说话的即时翻译等,我们认为在今后的 5 年将会有更多成熟的产品推出;

古文栋:关于创业的方向选择,首先要从大势出发,另外就是结合自身的情况,最后就是要把算法作为工具来反哺于产品上;

邵磊:做产品要前期积累人脉,同时要把握住自己的方向,找到自己的兴趣点才能够成功;

老杨:主要谈到提高学习效率的方法:大范围交流、吸收重点、实践与反馈。

会后,一些参会者也通过新浪微博分享了他们的参会感受:

ThinkingThigh :今天参加了百度技术沙龙之后很有收获,除了自己一开始就很感兴趣的徐老师的 deep learning 之外,谷老师介绍的 neo4j 和杨老师提出的线下活动,都给了自己不少启发。

钱钤:百度技术沙龙办的很不错,@InfoQ 关注行业内最新技术资讯,@百度技术沙龙 邀请很多行业内知名专家给听众讲座并近距离交流,各位技术同仁,请大家多多关注吧~~~ 难得的沟通学习机会。

有假熊出没:人工智能对语音和图像的识别已经越来越强了,是不是可以为更广泛的人群所应用,期待中。

digiter :2012 年十月有不少大事呀,ImageNet 标志 DeepLearning 开始流行,Lucene 4 开始加入更好的打分方法,Solr 4 标志分布式全文检索时代开始。

lazycai :yukai 吐槽现在的机器学习工作者: 大家都喜欢做有趣的工作,全扎堆去做 prediction 这方面,不愿意去做前面四个很无聊的工作。但是,机器学习能否做好的关键,恰恰在前面四步。

有关百度技术沙龙的更多信息,可以通过新浪微博关注 @百度技术沙龙,或者参加百度技术沙龙微群,InfoQ 上也总结了过往31 期所有百度技术沙龙的演讲视频和资料等,感兴趣的读者可以直接浏览内容

特别提示:第35 期百度技术沙龙将在2 月2 日,在北京举行,欢迎关注 @InfoQ @百度技术沙龙获取后续的活动信息。

2013-01-15 03:112152
用户头像

发布了 89 篇内容, 共 32.2 次阅读, 收获喜欢 4 次。

关注

评论

发布
暂无评论
发现更多内容

复杂场景下,通信云服务商如何赋能开发者

融云 RongCloud

音视频 通信云 语音社交

TypeScript 之模板字面量类型

冴羽

JavaScript typescript 翻译 大前端

【架构实战营】模块六

衣谷

架构实战营

直播:开发者如何抵达元宇宙

融云 RongCloud

开发者 元宇宙

基于云的技术架构设计实践 - 第3篇

hackstoic

签约计划第二季 业务安全

安全第二话

张老蔫

28天写作

前端领域的数据状态统一管理机制

鲸品堂

大前端

低代码平台是伪需求?不好意思,你的同行已经靠它完成转型升级了!

J2PaaS低代码平台

低代码 低代码开发 低代码开发平台 低代码平台

焱融 YRCloudFile 连获两项重量级认证,展现强劲存储实力!

焱融科技

云计算 分布式 云原生 高性能 文件存储

漏洞检测方法如何选?详解源代码与二进制SCA检测原理

华为云开发者联盟

安全 漏洞 软件成分分析 源代码SCA检测 二进制SCA检测

架构实战营:模块一作业

Geek_93ffb0

「架构实战营」

低代码实现探索(三)后台模型执行设计

零道云-混合式低代码平台

风口之下,音视频应用出海的三大机遇

融云 RongCloud

音视频 通信 出海

如何对Android 11进行网络状态监听

Changing Lin

12月日更

实用机器学习笔记六:数据清理

打工人!

机器学习 算法 学习笔记 12月日更 实用机器学习

低代码实现探索(四)前端组件核心模型

零道云-混合式低代码平台

6.《重学JAVA》--数据类型

杨鹏Geek

Java 25 周年 28天写作 12月日更

浪潮云跻身中国政务大数据管理平台市场领导者位置

云计算 云计算运维

网络安全之SQL注入深入分析

网络安全学海

网络安全 信息安全 渗透测试 WEB安全 SQL注入

如何处理工作与生活之间的冲突?

石云升

28天写作 职场经验 12月日更

架构训练营-模块一作业

zhongwy

架构实战营

基于RPA的自动化优先,正在成为广大组织的主流管理思维

王吉伟频道

RPA 机器人流程自动化 业务流程管理 自动化优先 业务流程自动化

华为云数据库GaussDB(for Influx)揭秘第二期:解密GaussDB(for Influx)的数据压缩

华为云开发者联盟

数据库 时序数据库 GaussDB(for Influx) 时序数据 数据压缩

7个连环问揭开java多线程背后的弯弯绕

华为云开发者联盟

Java 多线程 工作内存 主内存

如何建成有效的前端效能度量体系

benyasin

大前端 研发效能 研发度量 研发提效

青藤:一招制敌!微隔离,让勒索软件不再横行

青藤云安全

选课排课软件原生开发选课排课小程序模式源码开发

风行无疆

愿当传播通信技术火种的普罗米修斯

融云 RongCloud

通信云 技术大会

视镜:华为云媒体质量管理最新实践

华为云开发者联盟

音视频 华为云 媒体质量 视镜

清空数组的几个方式

CRMEB

搭积木一样实现语音社交软件开发

融云 RongCloud

开发者 通信云 语音社交

百度技术沙龙第34期回顾:机器学习之多媒体方向的思考(含资料下载)_百度_水羽哲_InfoQ精选文章