AICon 上海站|90%日程已就绪,解锁Al未来! 了解详情
写点什么

百度技术沙龙第 34 期回顾:机器学习之多媒体方向的思考(含资料下载)

  • 2013-01-15
  • 本文字数:2145 字

    阅读完需:约 7 分钟

在 1 月 12 日由 @百度主办、 @InfoQ 负责策划组织和实施的第 34 期百度技术沙龙活动上,来自百度的多媒体部副总监余凯和简网联合创始人、CTO 谷文栋分享了在机器学习方面的的经验与实践,话题涉及“深度学习进展以及在语音图像中的应用”和“个性化阅读产品实践”等。本文将对他们各自的分享做下简单的回顾,同时提供相关资料的下载。

本次沙龙是 2013 年的第一次沙龙活动,同时作为 2012 年的年度回顾,InfoQ 中文站创始人兼 CEO 霍太稳阐述了 InfoQ 的宗旨以及在 2012 和 2013 年的变化。随后分享了《架构师》月刊在 2012 年的专题内容并展望了 2013 年的技术热点。在谈到媒体的责任时,他认为“不在于预测的有多准,而在于记录的有多真实”。最后他强调了 InfoQ 对于移动开发、云计算、大数据、HTML5 和 Node.js 等方面的关注。

本次沙龙还选出了 2013 年的 6 位百度技术沙龙观察员:邵磊、老杨、张俊林、石川、邓侃、沈强。在新的一年里他们将会搜集开发者的反馈,分享精彩观点,将更多精彩的内容呈献给大家。

主题一:深度学习进展以及在语音图像中的应用 (下载讲稿

百度的多媒体部副总监余凯第一个为大家分享,他谈到自从 80 年代起,以神经网络、支持向量机等为代表的浅层分类模型有了很大的进展,随后以 Kernel Learning 、Transfer Learning 为代表的 Learning with Structures 引领潮流。成功之外,他指出在图像、视频以及语音识别以及关系数据挖掘方面还存在着很大的挑战。2006 之后,使用深架构学习高级特性已成为学习模式的主流。

他回顾了深度学习在工业界的运用:

  • 微软在 2009 年首次将其运用到机器语音识别的模型中;
  • 谷歌的“Google Brain”项目;
  • 百度在语音、图像识别方面的运用;

然后,他谈到了构建 Restricted Boltzmann Machine、Autoencoder Neural Net、Sparse Coding 等内容。

主题二:个性化阅读产品实践 (下载讲稿

简网联合创始人、CTO 谷文栋第二个为大家分享,本次分享的内容以开发指阅过程中的实践为主,包括指阅的“信息基因”技术、 图数据库(neo4j)以及产品感悟来向大家展示是如何运用等。

首先他阐述了 Tim Berners Lee 对于互联网的理解,即电脑互联、文档互联与物联三个阶段。目前,百度、谷歌等的兴起与发展代表了第二个阶段的成果,而第三个阶段正在到来。出于长远的考虑,他们打造了指阅这个产品,通过关联人与物(目前是文本)的关系为用户制作个性化的内容,他们称之为“基因工程”,目前已经有 Freebase、Google Knowledge Graph 和 Pandora 等同类产品。在实现产品构想的过程中,他发现原有的关系型数据库处理这些机器学习的数据时出现了局限性,而 NoSQL 在这个方面的解决方案得到了普遍的认可。

谷文栋分享了指阅在 NoSQL 解决方案的选择:图形数据库。出于稳定性和效率的考虑,指阅团队目前为采用 Neo4j 来作为数据库,并使用 Cypher 来进行数据查询,支持聚合、排序等操作。同时他还分析了图形数据库的一些缺点,即不容易进行分片。

指阅是将文本作为图,使用 TextRank 算法来建立信息基因,在构建产品的过程中他们也发现了一些问题:

  • 信息生命周期短暂
  • 同质化问题严重
  • 用户兴趣变化捉摸不定

最后,他总结了自己的心得,即:

用关联的视角去思考问题

Open Space(开放式讨论环节)

为了促进参会者与我们每期的嘉宾以及讲师近距离交流,深入探讨在演讲过程中的疑问,本次活动依然设置了 Open Space(开放式讨论)环节。

在 Open Space 的总结环节,几位话题小组长分别对讨论的内容进行了总结。

余凯:关于机器学习的技术细节,并发散到技术的潜能,例如关于多人说话的即时翻译等,我们认为在今后的 5 年将会有更多成熟的产品推出;

古文栋:关于创业的方向选择,首先要从大势出发,另外就是结合自身的情况,最后就是要把算法作为工具来反哺于产品上;

邵磊:做产品要前期积累人脉,同时要把握住自己的方向,找到自己的兴趣点才能够成功;

老杨:主要谈到提高学习效率的方法:大范围交流、吸收重点、实践与反馈。

会后,一些参会者也通过新浪微博分享了他们的参会感受:

ThinkingThigh :今天参加了百度技术沙龙之后很有收获,除了自己一开始就很感兴趣的徐老师的 deep learning 之外,谷老师介绍的 neo4j 和杨老师提出的线下活动,都给了自己不少启发。

钱钤:百度技术沙龙办的很不错,@InfoQ 关注行业内最新技术资讯,@百度技术沙龙 邀请很多行业内知名专家给听众讲座并近距离交流,各位技术同仁,请大家多多关注吧~~~ 难得的沟通学习机会。

有假熊出没:人工智能对语音和图像的识别已经越来越强了,是不是可以为更广泛的人群所应用,期待中。

digiter :2012 年十月有不少大事呀,ImageNet 标志 DeepLearning 开始流行,Lucene 4 开始加入更好的打分方法,Solr 4 标志分布式全文检索时代开始。

lazycai :yukai 吐槽现在的机器学习工作者: 大家都喜欢做有趣的工作,全扎堆去做 prediction 这方面,不愿意去做前面四个很无聊的工作。但是,机器学习能否做好的关键,恰恰在前面四步。

有关百度技术沙龙的更多信息,可以通过新浪微博关注 @百度技术沙龙,或者参加百度技术沙龙微群,InfoQ 上也总结了过往31 期所有百度技术沙龙的演讲视频和资料等,感兴趣的读者可以直接浏览内容

特别提示:第35 期百度技术沙龙将在2 月2 日,在北京举行,欢迎关注 @InfoQ @百度技术沙龙获取后续的活动信息。

2013-01-15 03:112305
用户头像

发布了 89 篇内容, 共 33.7 次阅读, 收获喜欢 4 次。

关注

评论

发布
暂无评论
发现更多内容

沈阳飞桨领航团Meetup邀请你来,探索AI如何赋能智慧城市

百度大脑

昇腾CANN论文上榜CVPR,全景图像生成算法交互性再增强!

Geek_32c4d0

昇腾

AI+生物计算:用计算机视觉技术理解细胞生命

百度大脑

【堡垒机】2022年云堡垒机品牌排名大比拼!

行云管家

云计算 网络安全 堡垒机 企业安全

云管平台提供的功能一般包括哪些?采购需求主要是什么?

行云管家

云计算 企业上云 云管平台 云管理

3个月夯实基建,鲜丰水果这样实现研发数字化

阿里云云效

云计算 阿里云 云原生 持续交付 研发运维

从“半部电台”到“云监工” 天翼云助力红色电信启航新征程

天翼云开发者社区

对话|鲜丰水果:“看不见”的门店数字化

阿里云云效

云计算 阿里云 云原生 持续交付 数字化运维

图数据库实操:用 Nebula Graph 破解成语版 Wordle 谜底

NebulaGraph

数据库 开源 图数据库 分布式图数据库

社区活动 | Apache Pulsar SIG(特别兴趣小组开放)!欢迎大家加入

Apache Pulsar

开源 架构 云原生 Apache Pulsar pulsar 社区

加密市场普跌 虎符交易所平台币HOO却能连续2个月逆势上涨

区块链前沿News

Hoo 虎符交易所 平台币

Java培训JVM 高频面试题

@零度

JVM JAVA开发

OpenVSCode云端IDE加入Rainbond一体化开发体系

北京好雨科技有限公司

4个迭代,从批量交付到持续交付转型

阿里云云效

云计算 阿里云 云原生 研发团队 研发

CVE-2021-3129:Laravel远程代码漏洞复现分析

华为云开发者联盟

安全 漏洞 代码复现 CVE-2021-3129 base64 标准

【C语言】猜数字小游戏

謓泽

3月月更

微服务中台技术之视频处理

小江

架构 ffmpeg 视频处理 电商系统

它来了,它来了!开源圈 KOL 的江湖对谈第二季要来了!

OpenTEKr

开源 程序员人生 开源社区 开源软件 优秀开源项目

2. 堪比JMeter的.Net压测工具 - Crank 进阶篇 - 认识yml

MASA技术团队

创新的力量天翼云推动科技创新技术实践落地

天翼云开发者社区

Rust基本概念

Shine

读书笔记 rust

VuePress 博客之 SEO 优化(二)重定向

冴羽

Vue 前端 vuepress SEO 重定向

云原生技术赋能ISV实现应用现代化

York

云原生

测试在项目流程中的那些事儿

有道技术团队

全运会开幕!天翼云全力打造“智慧赛事”

天翼云开发者社区

微博评论高性能高可用计算架构

李大虾

#架构实战营 「架构实战营」

如何基于 OpenKruise 打破原生 Kubernetes 中的容器运行时操作局限?

阿里巴巴云原生

常见问题(FAQ)页面的搭建步骤

小炮

移动平台WorkPlus助力医院智慧信息化建设

BeeWorks

液冷数据中心如何构建,蓝海大脑液冷技术保驾护航

GPU算力

液冷服务器

天翼云中南数字产业园落地长沙“天心数谷”初具雏形

天翼云开发者社区

百度技术沙龙第34期回顾:机器学习之多媒体方向的思考(含资料下载)_百度_水羽哲_InfoQ精选文章