在AICon北京2018大会上，马维英讲师做了《人工智能在文本、视频、语音、音乐等领域的最新发展和应用》主题演讲，主要内容如下。

演讲简介：

字节跳动公司的使命是建立新一代全球信息平台，从内容创作、分发、互动和交流的每一个环节，用人工智能技术赋能，提升用户体验，促进人类信息与知识交流的效率与深度。例如，通过计算机视觉、自然语言理解和生成技术开发的自动写稿机器人，能够自动理解体育视频并产生新闻播报。通过人工智能辅助内容审核，能够处理每天海量用户生成的各种内容。通过计算机视觉技术在手机端的应用，包括人脸检测和关键点定位、通用物体检测和识别，图像分类、分割、智能化美颜美妆、人体姿态估计、手势识别、手指关节点定位、SLAM等，抖音赋能每个人都能创作出高质量和内容丰富的短视频。在音频内容创作方面，基于深度学习的语音合成系统，应用到新闻播报和小说听书。同时，我们还在积极探索个性化合成技术，包括模拟不同发音人的音色与风格等。音乐是具有高商业价值的内容形式，同时也是构成其它内容的重要元素，因此音乐生成也是我们探索的研究方向。

在这个演讲中，我将会介绍人工智能在文本、视频、语音、音乐的自动理解和生成技术的最新发展，以及在内容创作和交流上的许多新的应用。

听众受益：

了解人工智能前沿技术趋势
了解人工智能在计算机视觉、NLP、深度学习等领域的最新技术应用

讲师介绍：

马维英

字节跳动副总裁人工智能实验室负责人

马维英，现任字节跳动公司副总裁兼人工智能实验室负责人，带领团队在机器学习、计算机视觉、计算机图形学、语音和音乐、自然语言处理、个性化推荐和搜索等领域进行基础研究和核心技术开发。他的团队所开发的技术通过字节跳动的产品（例如今日头条和抖音）已经在全球范围被数亿日活跃用户使用。他曾在世界级会议和学报上发表过逾300篇论文，并拥有160多项技术专利。他是电气电子工程师学会院士(IEEE Fellow)、美国计算机协会杰出科学家(ACM Distinguished Scientist)及中国“千人计划”专家。他是2008国际互联网大会(WWW)的程序委员会联合主席, 以及2011年国际信息检索大会(SIGIR)的联合主席。他曾经在诸多学术期刊编委会中任职, 包括ACM信息系统学刊 (TOIS), ACM/Springer多媒体系统学报和《多媒体工具与应用》杂志等。他于2010年至2016年担任国际互联网大会(WWW)的 Steering Committee委员。2018年7月，马维英入选TOP100的CS计算机科学家，h-index 104，全球排名86，中国排名第2。他于2010年获得台湾清华大学EECS学院的杰出校友荣誉，以及2013年美国加州大学圣芭芭拉分校电气和计算机工程系50周年的杰出讲座(Distinguished Lecture)荣誉。

在加入字节跳动之前，他从2001年到2017年2月在微软亚洲研究院工作，担任研究院常务副院长，领导在信息检索、自然语言处理、机器学习、互联网搜索技术、知识图谱和数据挖掘，多媒体分析和理解等方面的研究。他的团队开发许多关键核心技术并用于微软必应搜索引擎Bing和在线广告Ads Center，以及微软认知服务Cognitive Services，Exchange, SharePoint, Delve, Azure，微软小冰聊天机器人和问答系统。他还在GitHub开源了多项技术, 包括使得大规模机器学习任务具有高度可扩展性, 高效性和灵活性的分布式机器学习工具包Distributed Machine Learning Toolkit, 和基于内存的分布式大规模图数据处理引擎Microsoft Graph Engine, 以及让计算机理解自然语言所需要掌握的概念和知识图谱Microsoft Concept Graph。

他于1990年毕业于台湾国立清华大学电气工程系，后于1994年和1997年分别获得美国加州大学圣芭芭拉分校(University of California at Santa Barbara)电气和计算机工程系硕士和博士学位。

完整演讲PPT下载链接：

https://aicon.infoq.cn/2018/beijing/#schedule

创作场景

人工智能在文本、视频、语音、音乐等领域的最新发展和应用