2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

国际机器学习顶会 ICML,我们来了!

  • 2019-08-26
  • 本文字数:1392 字

    阅读完需:约 5 分钟

国际机器学习顶会ICML,我们来了!

当地时间 6 月 9 日,机器学习领域最具影响力的学术会议之一 ICML 2019 在美国长滩隆重开幕。在本次 ICML 上,支付宝展示了多篇入选论文成果,并在 6 月 9 日举行了专家云集的主题 workshop,现场与各位学者专家探讨了前沿金融智能技术和应用的发展。



据了解,本次 workshop 围绕金融智能展开,会上 AI 专家围绕金融智能应用实践、“小数据”、数据隐私安全等焦点问题进行了演讲分享,助力行业解决人工智能+金融融合创新中的技术难题。


workshop 结束后,仍有大批专家学者们留在现场热情交流。



而论文方面,本届 ICML 支付宝 AI 技术团队贡献了多篇论文研究成果,包括提出了用生成对抗用户模型来解决强化学习小样本的问题,并将此方法用在推荐系统的优化中;引入了分布梯度时序插分学习,在分布强化学习的基础上开辟了新的方向;提出了粒子流贝叶斯定理(particle flow Bayes’Rule)算法,实现对高维贝叶斯推理的精确度的提升优化等。


以下我们精选了其中 3 篇为大家介绍,分享支付宝 AI 在金融服务领域的最新研究:

Adversarial User Model for Reinforcement Learning BasedRecommendation System

简介:将强化学习(RL)用于推荐系统,能更好地考虑用户的长期效益,从而保持用户在平台中的长期满意度、活跃度。但是,强化学习需要大量训练样本。在这篇论文中,我们提出用生成对抗用户模型(GAN user model)作为强化学习的模拟环境,先在此模拟环境中进行线下训练,再根据线上用户反馈进行即时策略更新,以此实现对线上训练样本需求的极大降低。

Nonlinear distributional gradient temporal differencelearning

简介:我们在该篇论文中引入了分布梯度时序插分学习(distributional gradient temporal difference learnig)。近年来分布强化学习例如 DeepMind 的 c51 算法引起了学术界的广泛注意。相较于传统的强化学习算法,分布强化学习考虑到长期奖励(long term reward)的分布信息,使得其具有学习过程更稳定,收敛速度更快的优点。但是与神经网络相结合以及使用 off-policy 学习后,分布强化学习的收敛性依旧难以得到保证。因此我们将分布强化学习与梯度时序插分学习相结合,提出了 Distributional Mean Squared Bellman Error 做为我们的优化目标函数。该研究为分布强化学习提供了理论保障同时在其基础上开辟了新的研究方向。

Particle Flow Bayes Rule

简介:贝叶斯推理(Bayesian Inference)在高维问题中,由于高维积分带来一系列的计算和精度问题,计算后验概率(posterior)是一个重大挑战。除此之外,在许多现实的问题中,观测数据(observations)按顺序依次到达,贝叶斯推断需要反复迭代使用:在观察一些数据后得到的后验概率可以当作新的先验概率,再根据新的数据得到新的后验概率。这种问题需要算法能在不储存大量历史数据的情况下,在线执行快速、有效的贝叶斯更新(Bayesian updating)。为解决这一具有挑战性的问题,我们提出了粒子流贝叶斯定理(particle flow Bayes’ Rule),这是一个基于常微分方程(ODE)的贝叶斯算子。我们在几个经典、高维实验中展示了通过 meta learning 训练得到的粒子流贝叶斯算子(particle flowBayes’ Rule)的有效性以及泛化能力。尤其在高纬问题中,我们提出的算法对后验的估算比已有的算法在精确度以及计算效率上有明显的优势。


本文转载自公众号蚂蚁金服科技(ID:Ant-Techfin)。


原文链接:


https://mp.weixin.qq.com/s/ISfL892oqYjc-eGMYwhUqw


2019-08-26 10:561275
用户头像

发布了 150 篇内容, 共 40.1 次阅读, 收获喜欢 38 次。

关注

评论

发布
暂无评论
发现更多内容

【连载 08】lock锁

FunTester

自学记录鸿蒙API 13:Calendar Kit日历功能从学习到实践

李游Leo

HarmonyOS HarmonyOS NEXT

人形机器人赛道已挤满车企和自动驾驶行业精英

机器人头条

机器人 人形机器人 具身智能

Java Web学生自习管理系统

不在线第一只蜗牛

Java 前端

用户态文件系统在高性能文件存储中的探索实践

焱融科技

高性能存储 用户态文件系统

得物基于AIGC生成测试用例的探索与实践

得物技术

AI 效率提升

由 Mybatis 源码畅谈软件设计(七):从根上理解 Mybatis 一级缓存

京东科技开发者

研发效能实践之打造高效能团队

思码逸研发效能

研发效能 效能度量 研发效能度量 高效能

快手动效渲染引擎Crab,解锁“游戏化动效”开发新方式!

快手技术

Java 前端 动效

百家号年度盛典:聚焦创作者成长,乘风计划再升级

极客天地

推理模型的“年终考试”,谁是国内目前最好的“o1”?

Alter

AI 大模型 推理模型 大模型应用

甲子光年智库发布《中国 AI 算力行业发展报告》

中昊芯英

gpu 算力 TPU #人工智能

探析同济医院科研一体化平台建设(二):统筹科研项目,促进成果转化

ModelWhale

人工智能 大数据 同济大学

实力再获认可!焱融 AI 存储 F9000X 荣获中国 IDC 产业创新技术产品奖

焱融科技

人工智能 IDC 智算中心 全闪存储

如何通过电商 API 接口实现智能客服与用户互动?

科普小能手

数据挖掘 数据分析 电商 API 接口 API 测试

CleanMyMac有必要买吗?达人深度体验后告诉你答案

阿拉灯神丁

软件包 苹果软件精选 mac系统维护 CleanMyMac X中文

焱融 AI 存储荣登 「2024 年度 AI 最佳技术服务商 TOP 10」榜单

焱融科技

AI 全闪存储

🎉 夜莺监控突破一万 star,这是汗水,也是鞭策

巴辉特

夜莺监控 运维监控 IT监控 开源监控

四年匠心磨砺,快手系统软件技术创新与领域演进之路

快手技术

编译器 快手 系统软件技术 Java协程

研发效能度量的常见指标问题——看什么?不准怎么办?

思码逸研发效能

DevOps 研发效能 效能度量 研发效能度量 思码逸

百剧计划:百度短剧创新引擎,赋能短剧新未来

极客天地

无限制!个人开发者发布Coze扣子智能体到微信小程序教程

Ceelog

区块链智能合约的开发流程

北京木奇移动技术有限公司

区块链开发 智能合约开发 软件外包公司

Web3项目开发流程

北京木奇移动技术有限公司

区块链技术 软件外包公司 web3开发

国际机器学习顶会ICML,我们来了!_文化 & 方法_Geek_cb7643_InfoQ精选文章