嘉宾介绍:刘世林博士,现任倍赛科技 CTO,TGO 鲲鹏会(成都)学员,曾任新加坡国立大学计算机系研究助理员、百度高级算法工程师、历任数联铭品高级研究员、人工智能高级总监、副总裁。曾发表了数十篇的国际顶级期刊杂志和会议论文,申请了 100 多项发明专利,已授权了 16 项发明专利,主持开发软件著作有 30 多项。
从学术界到工业界,从算法工程师到数联铭品 AI 副总裁,刘世林博士看到了 Data-centric AI 的未来而选择加入具有浓厚 AI 数据基因的倍赛科技,带领公司开启 MLOps 之路。
Data-centric MLOps
在 2021 年上半年,吴恩达教授曾强调,数据质量比模型调优更为重要和有效,这引起了大家对于 Model-centric AI 与 Data-centric AI 谁更重要的大讨论。支持 Model-centric 的许多专家认为,更优秀的模型可以弥补数据质量不足导致的性能下降的问题;支持 Data-centric 的从业者则认为,“Garbage in, Garbage out”, 数据的质量决定了模型能达到的性能上限,同时优化数据的成本要远远低于优化模型。
在刘世林看来 ,工业界不仅应用方法在朝着 Data-centric AI 转变,而且整个生态也在大力发展 MLOps 基础设施,因此我们在讲现在是 Data-centric MLOps 的时代。
据刘世林介绍,深度神经网络的发展现在已经进入广泛的工程化应用阶段,虽然每年都有数千数量的“创新模型”出现,但其实很多模型都是知名模型,例如 CNN、Transformer、GAN、LSTM 等基础上的微创新;
其次,神经网络逐渐出现模块化建设,比如 Backboon、Neck、Head 等等模块,大家进行深度学习与算法工程实践或研究的时候,大都固定其中几个模块,重点调整优化其中的一个模块,观察实验效果;
最后,在预训练大模型方面,2018 年谷歌的 BERT 模型参数首次突破了亿级,2021 年阿里达摩院 M6 模型已达 10 万亿参数,而后者用了 512 张 V100 高端显卡,训练了 10 天才完成,这意味着,大模型已然成为寡头的军事竞赛游戏。
虽然中小企业的数据门槛降低了,但是其持续性的计算成本却不断升高。而 Data-centric MLOps 却能够以规模适中的 SOTA 模型,结合优秀的 MLOps 软件生成较多的好数据以及较低的技术资源来完成 AI 的训练,这对于大、中、小厂商都是比较友好的选择。
“现在的神经网络与算法相对比较成熟,我们可以用比较优质的数据与优秀的模型进行组合,产生较好的落地应用。数据是整个模型的组成部分,或者说数据已然成为 AI 应用的新型代码了,对于模型开发来说,企业可以将更多的资源和成本投入在数据上面。”刘世林表示。
据 UBS Global 研究发现,越来越多的企业在进行模型开发的时候,70%-90% 的时间都投入在数据上,如何让数据的质量更高,数据的多样性更丰富等等,都是应用开发需要着重考虑的问题。
AI Powerd for MLOps
倍赛科技起源于数据标注业务,现在随着技术与市场需求的发展,倍赛科技也进行了战略性的产品升级与转型,目前公司主打面向全球的 Data-centric MLOps 基础软件,同时将人工智能集成到软件产品中,更好地帮助企业 AI 实践与落地。
数据标注服务的竞争日趋激烈,很多数据标注服务厂商进入到劳动力军备竞赛的阶段,相互之间价格战打得比较凶猛,甚至不断地去偏远的地区寻找成本更低的标注员,以降低生产成本。刘世林强调,“我们也注意到了这种现象,但是我们认为这不是一条可持续发展的良性道路,因此倍赛科技选择了 Data-centric MLOps,通过 AI 技术的手段,一方面提升数据服务的效率与质量,另一方面通过不断完善 MLOps 软件基础设施,为企业 AI 实践打造和提供一站式的软件工具。”
举个例子:预标注,也称之为半自动标注,是利用与当前数据匹配的模型进行算法预测,然后标注员在已标好的数据之上进行增删改查,倍赛目前已经具备了从文本、图像、语音、视频和 3D 点云数据的预标注能力,平均可以达到 30% 以上的提效效果。
“从数据的整个生命周期来看,人工智能可以在数据的采集、标注、管理,以及模型的开发、调试、部署发挥着不同的能力,它可以帮助工程师更好、更快地完成每个环节的工作。”这也就是我们常说的 AI Powerd for MLOps。
我的管理思考
每当提到互联网公司的管理的时候,很多人立马会想到“狼性文化”,但在刘世林看来,对于新一代进入职场的年轻人来说,可能并不适用。他们的个性化需求比较强烈,工作只是生活的一部分而不是全部,当你真正推行充分竞争、强制加班等举措时,会遇到非常多的挑战。
“这也是一个时代的进步,作为管理者,也需要顺应时代的变化调整自己的管理手段。现在我更推崇目标导向的管理方式,这与我的早期经历有关。OKR 是目标导向管理较好的实践。”OKR(Objectives and Key Results)即目标与关键成果法,是一套明确和跟踪目标及其完成情况的管理工具和方法。
在刘世林的眼中,OKR 是相对比较客观的管理方式,它是一种从公司目标出发,减少人治的管理方式,以避免无谓的口舌之争。对于管理者来说,OKR 不仅可以减轻管理者的负担和成本,还可以加强跨部门的协同和利益的绑定,以及信息的公开透明等。
以服务的姿态与同事进行协作,是刘世林常做的事情。刘世林作为 CTO,常常需要服务不同的团队,这里不光光有工程、算法团队,还有业务、市场、运营团队。“我会通过 OKR 清晰地传达战略,然后协调不同部门之间的沟通协作,当然 OKR 不可以和 KPI 混作一谈,否则很多人都会有所保留的去设定目标。在整个 OKR 的大框架下工作,这其实也是在弱化管理思维,将所有员工的心思都放在解决问题上,而不是上下级的任务安排与汇报关系。”
优秀的人才是企业最大的财富,想要留下人才,不仅仅需要制度,还需要用心。刘世林表示,在数联铭品工作之时,就带领了有超过二十人的算法研发团队,几乎都是国内外名校硕士以上学历或大厂经历,为了留住他们,需要给予大家足够的技术和工程的成就感。
“从成就感出发,我不断地让大家进行新方法的探索尝试,并且加强团队的沟通交流和分享,大家通过接受一些新挑战,学习新东西,可以收获很多满足感;其次,保证团队在代码与数据层面的积累,例如,代码层面,我一直强调代码的复用性,与团队成员打造可以适应不同项目的工具,要实现高质量的可复用的代码,没有丰富的工程编程经验是无法做到的,这个其实也在间接要求大家提升自己的编程素养;在数据层面,作为 Data-centric MLOps 的践行者,我们非常注重数据的积累,我们有着大量来自不同源头的数据,与大家一起来训练模型。”
Q&A
如何解决不同行业数据标注的需求?
刘世林:虽然 AI 的数据需求来源于各行各业,其非标的场景比较多,其中采集的标准化程度较低,通常不同的行业采集的设备、物理环境要求不一样,不过对于标注来说,几乎所有问题都归结成为文本、语音、图像、视频和激光雷达的 3D 点云等场景。我们将不同需求归结成不同模态的数据,接着针对不同模态,设计开发不同的标注工具。随着自动驾驶的高速发展,倍赛也开发了支持多模态数据的融合标注,不仅可以提升标注效率,还能大幅提升准确率。
例如,当在图像上标注汽车的时候,倍赛科技的平台提供了矩形框、多边形工具、平滑曲线以满足不同细粒度的标注。与此同时,当我们在 3D 点云数据场景里,标注汽车,我们就得借助 3D 的立体框工具,结合多视角的点云和图像映射视图以提升标注的质量。虽然这里举例用的是自动驾驶场景,但是用于矩形框、立体框等工具也可以拿来标注零售、工业、家居、安防、医疗等行业的 AI 问题。一句话来讲,我们是基于数据的模态(包括单模态和多模态)去设计和开发工具,而不是行业。
AI 未来的发展,您怎么看?
刘世林:AI 目前在某些特定的领域应用的比较不错,但是迁移能力比较弱,未来五年内人工智能主要目标应该还是在生产生活中辅助人类以提升效率。现在,许多大模型已经达到了万亿级的参数规模,对于大公司来讲,当持续性投入成本不是最优先考虑的因素的时候,便可以结合大模型加少量数据来快速搭建应用,但是对于中小企业来讲,因为中小企业资金资源、物理资源非常有限,因此我们建议把更多的资源投在高质量数据上面;
其次,现在许多 AI 系统往往止步于交付,交付之后便停止了模型的更新迭代。这是传统企业或政府单位应用 AI 常常出现的问题,因为这些系统往往是由第三方承接打造的,软件维护期有限,其中模型的维护不一定包括在内,所以当数据环境随着时间发生了显著的变化之后,模型效果很可能就会大幅降低,触发新一轮的软件采购。这一点也是倍赛一直在尝试解决的,比如我们把人工标注抽象成 API,支持生产数据回流,支持终身学习等。
关于 TGO 鲲鹏会
TGO 鲲鹏会是极客邦旗下科技领导者聚集和交流的组织,学员由 CTO、架构师、技术 VP、具有技术背景的 CEO 等组成,目前已经在北京、上海、深圳、广州、杭州、成都、硅谷、南京、台北、厦门、武汉、苏州等 12 个城市定期举办学习活动。
TGO 鲲鹏会采用了“学员共建”的组织形式,希望通过“共建、自治”的方式维护各城市的健康发展,为学员提供必要的服务,帮助学员个人更好地学习和成长,助力学员企业之间更好地合作与交流。加入 TGO 鲲鹏会,全方位提升自身价值,成为卓越科技领导者!
评论