写点什么

人工智能在文本、视频、语音、音乐等领域的最新发展和应用

  • 2019 年 9 月 17 日
  • 本文字数:1553 字

    阅读完需:约 5 分钟

人工智能在文本、视频、语音、音乐等领域的最新发展和应用

AICon北京2018大会上,马维英讲师做了《人工智能在文本、视频、语音、音乐等领域的最新发展和应用》主题演讲,主要内容如下。


演讲简介


字节跳动公司的使命是建立新一代全球信息平台,从内容创作、分发、互动和交流的每一个环节,用人工智能技术赋能,提升用户体验,促进人类信息与知识交流的效率与深度。例如,通过计算机视觉、自然语言理解和生成技术开发的自动写稿机器人,能够自动理解体育视频并产生新闻播报。通过人工智能辅助内容审核,能够处理每天海量用户生成的各种内容。通过计算机视觉技术在手机端的应用,包括人脸检测和关键点定位、通用物体检测和识别,图像分类、分割、智能化美颜美妆、人体姿态估计、手势识别、手指关节点定位、SLAM 等,抖音赋能每个人都能创作出高质量和内容丰富的短视频。在音频内容创作方面,基于深度学习的语音合成系统,应用到新闻播报和小说听书。同时,我们还在积极探索个性化合成技术,包括模拟不同发音人的音色与风格等。音乐是具有高商业价值的内容形式,同时也是构成其它内容的重要元素,因此音乐生成也是我们探索的研究方向。


在这个演讲中,我将会介绍人工智能在文本、视频、语音、音乐的自动理解和生成技术的最新发展,以及在内容创作和交流上的许多新的应用。


听众受益:


  1. 了解人工智能前沿技术趋势

  2. 了解人工智能在计算机视觉、NLP、深度学习等领域的最新技术应用


讲师介绍


马维英


字节跳动副总裁 人工智能实验室负责人


马维英,现任字节跳动公司副总裁兼人工智能实验室负责人,带领团队在机器学习、计算机视觉、计算机图形学、语音和音乐、自然语言处理、个性化推荐和搜索等领域进行基础研究和核心技术开发。 他的团队所开发的技术通过字节跳动的产品(例如今日头条和抖音)已经在全球范围被数亿日活跃用户使用。他曾在世界级会议和学报上发表过逾 300 篇论文,并拥有 160 多项技术专利。他是电气电子工程师学会院士(IEEE Fellow)、美国计算机协会杰出科学家(ACM Distinguished Scientist)及中国“千人计划”专家。他是 2008 国际互联网大会(WWW)的程序委员会联合主席, 以及 2011 年国际信息检索大会(SIGIR)的联合主席。他曾经在诸多学术期刊编委会中任职, 包括 ACM 信息系统学刊 (TOIS), ACM/Springer 多媒体系统学报和《多媒体工具与应用》杂志等。他于 2010 年至 2016 年担任国际互联网大会(WWW)的 Steering Committee 委员。2018 年 7 月,马维英入选 TOP100 的 CS 计算机科学家,h-index 104,全球排名 86,中国排名第 2。 他于 2010 年获得台湾清华大学 EECS 学院的杰出校友荣誉,以及 2013 年美国加州大学圣芭芭拉分校电气和计算机工程系 50 周年的杰出讲座(Distinguished Lecture)荣誉。


在加入字节跳动之前,他从 2001 年到 2017 年 2 月在微软亚洲研究院工作,担任研究院常务副院长,领导在信息检索、自然语言处理、机器学习、互联网搜索技术、知识图谱和数据挖掘,多媒体分析和理解等方面的研究。他的团队开发许多关键核心技术并用于微软必应搜索引擎 Bing 和在线广告 Ads Center,以及微软认知服务 Cognitive Services,Exchange, SharePoint, Delve, Azure,微软小冰聊天机器人和问答系统。他还在 GitHub 开源了多项技术, 包括使得大规模机器学习任务具有高度可扩展性, 高效性和灵活性的分布式机器学习工具包 Distributed Machine Learning Toolkit, 和基于内存的分布式大规模图数据处理引擎 Microsoft Graph Engine, 以及让计算机理解自然语言所需要掌握的概念和知识图谱 Microsoft Concept Graph。


他于 1990 年毕业于台湾国立清华大学电气工程系,后于 1994 年和 1997 年分别获得美国加州大学圣芭芭拉分校(University of California at Santa Barbara)电气和计算机工程系硕士和博士学位。












完整演讲 PPT 下载链接


https://aicon.infoq.cn/2018/beijing/#schedule


2019 年 9 月 17 日 13:49551

评论

发布
暂无评论
发现更多内容

Linux之find命令的参数详解

入门小站

Linux

当前端渲染遇上边缘计算

火山引擎边缘计算

Elasticsearch 多种跨机房灾备方案对比与实战解读

Se7en

Spring 如何解决循环依赖问题?

💥 玩命不玩心💥

JVM到底该学些什么?

蝉沐风

JVM 虚拟机 学习路线

“群舰效应”与商业市场大航海

脑极体

04 Prometheus之配置步骤及容量规划

穿过生命散发芬芳

Prometheus 1月月更

Python猫 2021 文章小结,翻译竟比原创多!

Python猫

Python

龙蜥社区2021年度运营委员会会议顺利召开

OpenAnolis小助手

龙蜥社区

今晚直播:展望2022,操作系统将走向何方?

OpenAnolis小助手

操作系统 国产操作系统 龙蜥社区

微博评论高性能高可用计算架构

ren

政法委重点人员联防联控平台开发,跨部门大数据系统搭建

电微13828808271

区块链数字藏品平台开发,区块链+数字藏品激活传统文创

电微13828808271

在线JSON转HTML工具

入门小站

工具

浅谈ThinkPH5.0和5.1的反序列化利用链分析

网络安全学海

黑客 网络安全 信息安全 渗透测试 安全漏洞

应收账款的界定

whatever

供应链金融 保理

(1-3/3)团队OKR的设定

mtfelix

300天创作 无限生长 2022Y300P

一个cpp协程库的前世今生(十)调度的流程

SkyFire

c++ cocpp

🏆【Alibaba中间件技术系列】「RocketMQ技术专题」带你一起去探索RocketMQ服务架构的线程模型分析

浩宇天尚

RocketMQ SpringCloud Alibaba Alibaba技术 Apache RocketMQ

阿里云贾少天:大规模云服务器高效使用及管理实践

阿里云弹性计算

阿里云 云栖大会 云上运维

查收新年礼物 | DevEco Studio 3.0 Beta2发布,20个新变化,等你升级

HarmonyOS开发者社区

HarmonyOS

基于区块链和web3.0的全新社交协议Coo Social首发上线虎符创新区

区块链前沿News

Hoo 虎符交易所 coo web3.0

DevEco Device Tool 3.0 Beta2新版本发布,新增可视化Trace工具和Perf性能分析工具

HarmonyOS开发者社区

OpenHarmony

2022新版,阿里自研Spring+SpringBoot+SpringCloudAlibaba全家桶笔记

程序员小毕

spring 源码 程序员 架构 面试

科尼数字科技张彬:云设计系统助力行业数字化转型

阿里云弹性计算

阿里云 弹性计算 年度峰会

NFT元宇宙热门游戏开发(仿盘定制)

NFT元宇宙平台开发

区块链游戏 NFT 元宇宙 gamefi

大数据平台的SQL查询引擎有哪些?

程序员守护石

大数据 Hive SQL presto 分布式, spark SQL

NFT艺术品交易商城app开发演示

NFT元宇宙平台开发

数字化 3D NFT 收藏艺术品

阿里性能优化(2022最新版)多线程/设计模式/数据库/JVM性能优化全都有

程序员小毕

Java 程序员 架构 面试 性能优化

开源实践 | 六棱镜基于 OceanBase 选型探索与实践

OceanBase 数据库

OceanBase 开源 OceanBase 社区版 客户案例

React Native 核心原理及跨端选型思路

React Native 核心原理及跨端选型思路

人工智能在文本、视频、语音、音乐等领域的最新发展和应用-InfoQ