写点什么

信息检索顶会 WSDM CUP 2023 揭榜,腾讯获两项任务冠军,成果基于混元 AI 大模型和太极机器学习平台实现

  • 2023-03-15
    北京
  • 本文字数:1626 字

    阅读完需:约 5 分钟

信息检索顶会WSDM CUP 2023揭榜,腾讯获两项任务冠军,成果基于混元AI大模型和太极机器学习平台实现

近日,信息检索领域国际顶级学术会议 WSDM(Web Search and Data Mining)宣布了 WSDM CUP 2023 竞赛成绩,来自腾讯的研究团队基于大模型预训练、搜索排序以及集成学习等技术上的突破,在无偏排序学习和互联网搜索预训练模型赛道上的两项任务中获得冠军。

  

ACM WSDM(Web Search and Data Mining) 会议是信息检索领域顶级会议之一,由 SIGIR、SIGKDD、SIGMOD 和 SIGWEB 四个专委会协调筹办,在互联网搜索、数据挖掘领域享有较高学术声誉。第 16 届 ACM 国际 WSDM 会议于 2023 年 2 月 27 日至 3 月 3 日在新加坡举行,论文的接收率为 17.8%。

 

WSDM Cup 由 WSDM 会议举办,本届 WSDM Cup 共计 400 余支队伍参加,分别来自中国、美国、新加坡、日本、印度等国家的知名高校和公司,大赛共设置三个赛道:无偏排序学习和互联网搜索预训练模型赛道(Unbiased Learning to Rank and Pre-training for Web Search)、跨语言连续体的多语言信息检索赛道(Multilingual Information Retrieval Across a Continuum of Languages)和视觉问答挑战赛道(Visual Question Answering Challenge)。

 

此次腾讯「参赛队名:腾讯机器学习平台部搜索团队(TMLPS)」参加了无偏排序学习和互联网搜索预训练模型赛道,并在该赛道的两项子任务中(Pre-training for Web Search 和 Unbiased Learning to Rank)获得冠军。

 

目前两项成果代码和论文均已发布到 Github 上(见:GitHub - lixsh6/Tencent_wsdm_cup2023

 

在深度学习领域,数据标注的质量对于模型的效果有着较为显著的影响,但是较高的标注数据成本一直是研究团队的阻碍之一,如何从技术上利用无标注的数据训练模型自然成为了成为学术界和工业界关注的热点。

 


论文:Multi-Feature Integration for Perception-Dependent Examination-Bias Estimation

地址:https://arxiv.org/pdf/2302.13756.pdf

 


本次比赛,针对基于搜索的预训练任务(Pre-training for Web Search),腾讯团队通过大模型训练、用户行为特征去噪等方法,在点击日志上进行基于搜索排序的模型预训练,进而使模型有效地应用到下游相关性排序的检索任务。通过预训练、模型微调、集成学习等多方面的优化,在人工标注的相关性排序任务上取得了较大的领先优势。

 


论文:Pretraining De-Biased Language Model with Large-scale Click Logs for Document Ranking

地址:https://arxiv.org/pdf/2302.13498.pdf

 

在本次比赛的另一赛道无偏排序学习任务(Unbiased Learning to Rank)中,团队通过深入挖掘点击日志信息,充分利用包括文档媒体类型、文档展示高度和点击后的滑屏次数等特征对文档相关性进行无偏估计,提出了一种能够集成多种偏置因素的多特征集成模型,有效地提升了搜索引擎中文档排序的效果。

 

据了解,夺冠团队的成果均基于腾讯混元 AI 大模型(下文简称“HunYuan”)和太极机器学习平台实现。目前,通过联合微信搜索团队,两项技术已经在微信搜一搜的多个场景落地相关技术,并取得了显著的效果提升。

 

AI 大模型(又称预训练模型)是指预先训练好,具有相对通用性的“一套算法”,具有“巨量数据、巨量算力、巨量模型”等特性。大模型通过学习样本数据的内在规律和表达层次,发展出接近、超越人类水平的“智能”,具备分析推理能力,能够识别文字、图像和声音等。

 

2022 年 4 月,腾讯首次对外披露 HunYuan 大模型研发进展。HunYuan 集 CV(计算机视觉)、NLP(自然语言理解)、多模态理解能力于一体,先后在 MSR-VTT、MSVD 等五大权威数据集榜单中登顶,实现跨模态领域的大满贯。2022 年 5 月,在国际公认的 CLUE(中文语言理解评测集合)三个榜单同时登顶。近日,HunYuan 又迎来全新进展,推出国内首个低成本、可落地的 NLP 万亿大模型,并再次登顶 CLUE。

 

腾讯太极机器学习平台是集模型训练和在线推理于一身的高性能机器学习平台,具备万亿参数模型的训练和推理能力,为 AI 大模型预训练推理和应用落地提供了完整的端到端工程能力支撑,一站式解决算法工程师在 AI 应用过程中特征处理、模型训练、模型服务等工程问题。

2023-03-15 14:234574
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 539.8 次阅读, 收获喜欢 1977 次。

关注

评论

发布
暂无评论
发现更多内容

一线互联网移动架构师360°全方面性能调优,Android开发面试题目

android 程序员 移动开发

flutter技术解析与实战!动脑学院视频百度云

android 程序员 移动开发

凌晨 12 点突发 Istio 生产事故!一顿操作猛如虎解决了

青云技术社区

云原生 Istio, kubenetes

kotlin协程原理,动脑学院vip

android 程序员 移动开发

事件分发流程图,扔物线课程怎么样

android 程序员 移动开发

从三流Android外包到秒杀阿里P7,从理论到实践

android 移动开发

作为一个程序员你觉得最大的悲哀是什么,安卓音视频开发

android 程序员 移动开发

一起看看这些大厂面试真题查漏补缺吧,Android面试题中高级

android 程序员 移动开发

了解Android架构组件后构建APP超简单,阿里P7大牛手把手教你

android 程序员 移动开发

千言-情感分析2.0发布,三大数据集升级打造中文情感分析影响力

科技热闻

Adts 解析及AAC 编码

webrtc developer

ffmpeg aac,

五面阿里拿下飞猪事业部offer,思维导图+源代码+笔记+项目

android 程序员 移动开发

flutter音视频开发,动脑学院vip2019

android 程序员 移动开发

鸿蒙小游戏-数字华容道 自定义组件的踩坑记录

爱吃土豆丝的打工人

鸿蒙 HarmonyOS 自定义组件 小型游戏

一个回答引发热烈讨论,2021程序员进阶宝典

android 程序员 移动开发

架构训练营第3期模块一作业

吴霏

架构实战营 #架构实战营 「架构实战营」

为了跳槽强刷1000道Android真题,研发4面真题解析(Android岗)

android 程序员 移动开发

app启动速度优化,享学课堂架构师vip

android 程序员 移动开发

一线互联网大厂中高级Android面试真题收录,android音视频开发面试

android 程序员 移动开发

Java hashCode() 指南

码语者

Java hashcode

万字长文,扔物线课程怎么样

android 程序员 移动开发

不可多得的干货!动脑学院vip2019百度网盘

android 程序员 移动开发

个人开发者做一款App需要知道的事情,推荐

android 程序员 移动开发

GitHub标星1w的安卓架构师必备技能,腾讯T2手把手教你

android 程序员 移动开发

一个月成功收割腾讯、阿里、字节offer,食堂大妈看完都会了

android 程序员 移动开发

一线互联网架构师筑基必备技能之Android篇,2021年安卓开发者跳槽指南

android 程序员 移动开发

【设计思想解读开源框架】android享学课堂vip课程下载

android 程序员 移动开发

从不一样的角度描述Android事件传递,字节跳动面试官

android 程序员 移动开发

apm性能监控系统,rxjava扔物线

android 程序员 移动开发

handlermapping作用,扔物线朱凯

android 程序员 移动开发

hashmap为什么是线程不安全的,动脑学院百度网盘

android 程序员 移动开发

信息检索顶会WSDM CUP 2023揭榜,腾讯获两项任务冠军,成果基于混元AI大模型和太极机器学习平台实现_AI&大模型_刘燕_InfoQ精选文章