写点什么

百度技术沙龙第 34 期回顾:机器学习之多媒体方向的思考(含资料下载)

  • 2013-01-15
  • 本文字数:2145 字

    阅读完需:约 7 分钟

在 1 月 12 日由 @百度主办、 @InfoQ 负责策划组织和实施的第 34 期百度技术沙龙活动上,来自百度的多媒体部副总监余凯和简网联合创始人、CTO 谷文栋分享了在机器学习方面的的经验与实践,话题涉及“深度学习进展以及在语音图像中的应用”和“个性化阅读产品实践”等。本文将对他们各自的分享做下简单的回顾,同时提供相关资料的下载。

本次沙龙是 2013 年的第一次沙龙活动,同时作为 2012 年的年度回顾,InfoQ 中文站创始人兼 CEO 霍太稳阐述了 InfoQ 的宗旨以及在 2012 和 2013 年的变化。随后分享了《架构师》月刊在 2012 年的专题内容并展望了 2013 年的技术热点。在谈到媒体的责任时,他认为“不在于预测的有多准,而在于记录的有多真实”。最后他强调了 InfoQ 对于移动开发、云计算、大数据、HTML5 和 Node.js 等方面的关注。

本次沙龙还选出了 2013 年的 6 位百度技术沙龙观察员:邵磊、老杨、张俊林、石川、邓侃、沈强。在新的一年里他们将会搜集开发者的反馈,分享精彩观点,将更多精彩的内容呈献给大家。

主题一:深度学习进展以及在语音图像中的应用 (下载讲稿

百度的多媒体部副总监余凯第一个为大家分享,他谈到自从 80 年代起,以神经网络、支持向量机等为代表的浅层分类模型有了很大的进展,随后以 Kernel Learning 、Transfer Learning 为代表的 Learning with Structures 引领潮流。成功之外,他指出在图像、视频以及语音识别以及关系数据挖掘方面还存在着很大的挑战。2006 之后,使用深架构学习高级特性已成为学习模式的主流。

他回顾了深度学习在工业界的运用:

  • 微软在 2009 年首次将其运用到机器语音识别的模型中;
  • 谷歌的“Google Brain”项目;
  • 百度在语音、图像识别方面的运用;

然后,他谈到了构建 Restricted Boltzmann Machine、Autoencoder Neural Net、Sparse Coding 等内容。

主题二:个性化阅读产品实践 (下载讲稿

简网联合创始人、CTO 谷文栋第二个为大家分享,本次分享的内容以开发指阅过程中的实践为主,包括指阅的“信息基因”技术、 图数据库(neo4j)以及产品感悟来向大家展示是如何运用等。

首先他阐述了 Tim Berners Lee 对于互联网的理解,即电脑互联、文档互联与物联三个阶段。目前,百度、谷歌等的兴起与发展代表了第二个阶段的成果,而第三个阶段正在到来。出于长远的考虑,他们打造了指阅这个产品,通过关联人与物(目前是文本)的关系为用户制作个性化的内容,他们称之为“基因工程”,目前已经有 Freebase、Google Knowledge Graph 和 Pandora 等同类产品。在实现产品构想的过程中,他发现原有的关系型数据库处理这些机器学习的数据时出现了局限性,而 NoSQL 在这个方面的解决方案得到了普遍的认可。

谷文栋分享了指阅在 NoSQL 解决方案的选择:图形数据库。出于稳定性和效率的考虑,指阅团队目前为采用 Neo4j 来作为数据库,并使用 Cypher 来进行数据查询,支持聚合、排序等操作。同时他还分析了图形数据库的一些缺点,即不容易进行分片。

指阅是将文本作为图,使用 TextRank 算法来建立信息基因,在构建产品的过程中他们也发现了一些问题:

  • 信息生命周期短暂
  • 同质化问题严重
  • 用户兴趣变化捉摸不定

最后,他总结了自己的心得,即:

用关联的视角去思考问题

Open Space(开放式讨论环节)

为了促进参会者与我们每期的嘉宾以及讲师近距离交流,深入探讨在演讲过程中的疑问,本次活动依然设置了 Open Space(开放式讨论)环节。

在 Open Space 的总结环节,几位话题小组长分别对讨论的内容进行了总结。

余凯:关于机器学习的技术细节,并发散到技术的潜能,例如关于多人说话的即时翻译等,我们认为在今后的 5 年将会有更多成熟的产品推出;

古文栋:关于创业的方向选择,首先要从大势出发,另外就是结合自身的情况,最后就是要把算法作为工具来反哺于产品上;

邵磊:做产品要前期积累人脉,同时要把握住自己的方向,找到自己的兴趣点才能够成功;

老杨:主要谈到提高学习效率的方法:大范围交流、吸收重点、实践与反馈。

会后,一些参会者也通过新浪微博分享了他们的参会感受:

ThinkingThigh :今天参加了百度技术沙龙之后很有收获,除了自己一开始就很感兴趣的徐老师的 deep learning 之外,谷老师介绍的 neo4j 和杨老师提出的线下活动,都给了自己不少启发。

钱钤:百度技术沙龙办的很不错,@InfoQ 关注行业内最新技术资讯,@百度技术沙龙 邀请很多行业内知名专家给听众讲座并近距离交流,各位技术同仁,请大家多多关注吧~~~ 难得的沟通学习机会。

有假熊出没:人工智能对语音和图像的识别已经越来越强了,是不是可以为更广泛的人群所应用,期待中。

digiter :2012 年十月有不少大事呀,ImageNet 标志 DeepLearning 开始流行,Lucene 4 开始加入更好的打分方法,Solr 4 标志分布式全文检索时代开始。

lazycai :yukai 吐槽现在的机器学习工作者: 大家都喜欢做有趣的工作,全扎堆去做 prediction 这方面,不愿意去做前面四个很无聊的工作。但是,机器学习能否做好的关键,恰恰在前面四步。

有关百度技术沙龙的更多信息,可以通过新浪微博关注 @百度技术沙龙,或者参加百度技术沙龙微群,InfoQ 上也总结了过往31 期所有百度技术沙龙的演讲视频和资料等,感兴趣的读者可以直接浏览内容

特别提示:第35 期百度技术沙龙将在2 月2 日,在北京举行,欢迎关注 @InfoQ @百度技术沙龙获取后续的活动信息。

2013-01-15 03:112186
用户头像

发布了 89 篇内容, 共 32.6 次阅读, 收获喜欢 4 次。

关注

评论

发布
暂无评论
发现更多内容

全面支持JS/eTS应用开发,DevEco Studio 3.0 Beta4新版本发布

HarmonyOS开发者

HarmonyOS

[Windows环境] 批量获取某目录下的所有文件名

Empty

对安全和效率的一点思考(39/100)

hackstoic

安全

数据仓库与大数据挖掘技术调度平台- TASKCTL

敏捷调度TASKCTL

数据仓库 国产开源 TASKCTL 大数据仓库 DevOps工具

React + Node.js 全栈实战教程 - 手把手教你搭建「文件上传」管理后台

蒋川

node.js react.js mongodb Express axios

Windows 下安装 js运行时 Bun 教程

OpenHacker

js ts

NFT藏宝计划系统开发模式分析

开发微hkkf5566

搭上数字化列车,带你看看智能运维的新景象

云智慧AIOps社区

运维 运维自动化 数字化运维 智能运维 运维管理

LeetCode-121. 买卖股票的最佳时机(java)

bug菌

Leet Code 7月月更

InfoQ专访 | 联邦学习将会带来数据价值挖掘的下一个爆发点

Jessica@数牍

联邦学习

从工程师到技术leader的思维升级

阿里技术

技术成长

华为云GaussDB两大数据库通过中国信通院多项评测

华为云开发者联盟

数据库 后端 华为云

卷是真的卷,“粗心马虎”也是真的要扣分

图灵教育

数学 小学 初中

DevOps工具链:开放、自由地选择最适合团队和业务需要的工具

龙智—DevSecOps解决方案

DevOps DevOps工具 DevOps工具链

CloudBees CI使用Velero进行灾备(DR)概念验证

龙智—DevSecOps解决方案

ci 停机时间 灾难恢复计划

Minio 可观测最佳实践

观测云

自动发送企业微信通知,让我来教你真的超简单!

Jianmu

自动化 CI/CD 企业微信 通知

【C 语言】进阶指针 Five

謓泽

7月月更

一、What's API

忠厚

API API Explorer平台 api 网关

干货|语义网、Web3.0、Web3、元宇宙这些概念还傻傻分不清楚?(上)

Orillusion

开源 WebGL 元宇宙 Metaverse webgpu

BAT 面试 Java 岗经验汇总:面试重点 + 精选面试 120 题 +6 条面试经验!

程序知音

Java 程序员 后端 java面试 八股文

厚积而薄发,CRMEB Pro 商城系统每一步都很扎实!

CRMEB

对OpenHarmony中LiteOS的内核分析——超时原理和应用

OpenHarmony开发者

OpenHarmony

体验SRCNN和FSRCNN两种图像超分网络应用

华为云开发者联盟

人工智能 图像 图像超分

万字多图,搞懂 Nginx 高性能网络工作原理!

C++后台开发

nginx 中间件 后端开发 高性能网络 C++开发

跟着官方文档学 Python 之:基础语法

甜甜的白桃

Python 数据类型 7月月更

java零基础入门-封装

喵手

Java 7月月更

LeaRun快速开发平台:企业供应链管理系统解决方案

力软低代码开发平台

P4Python:合并实践指南之如何脚本化integrate流程

龙智—DevSecOps解决方案

文件合并 P4 Perforce Helix Core

图像搜索的分析和理解

Geek_e369a5

图像搜索 图像搜索是什么 图像搜索的分析理解 图像搜索就在身边

用它!用它!轻松实现线上线下门店一体化运营!

CRMEB

百度技术沙龙第34期回顾:机器学习之多媒体方向的思考(含资料下载)_百度_水羽哲_InfoQ精选文章