写点什么

Dropbox 如何改进内容建议模型

  • 2019-12-20
  • 本文字数:1215 字

    阅读完需:约 4 分钟

Dropbox如何改进内容建议模型

Dropbox 机器学习团队在最近的博客中分享了他们内容建议content suggestion)功能背后的模型,介绍了该模型如何处理不同类型的内容,如何将文件夹建议合并到现有的文件建议模型中,以及如何处理基于云的第三方内容。


该内容建议功能于今年4月份开始推出,在 Dropbox 主页的顶部添加了一个“建议文件”部分,它旨在方便用户在使用 Dropbox 时能快速访问其所要查找的文件,这与谷歌云端硬盘的“快速访问”功能非常相似。


该功能最初只支持文件推荐,并且是基于一个相对较浅的神经网络模型,该模型使用各种显著信号以及与任务无关的 Dropbox 实体嵌入(其中包括 Dropbox 用户、文件和文件夹的深层语义向量表示),来预测基于启发式候选集文件的 CTR(点击率)。这种方法类似于谷歌“快速访问”背后的机器学习模型所使用的方法


最近对内容建议模型的改进包含了几个新的组件, 以应对不同的挑战:


为了改进现有文件建议模型的预测功能,模型使用文件名和扩展名合并了更多有关文件的信息。文件扩展名被合并到特征向量中,但它不是通过使用简单的 one-hot 编码方案实现的,而是通过学习一个嵌入空间来实现的,在这个嵌入空间中语义相似的文件扩展名(例如 .jpg 和 .png)是紧密相连的,从而可以使模型从分布不均的数据中学习。此外,文件名的嵌入是通过获取 char-RNN 的状态向量来创建的,每次只摄取文件名的一个字符,以帮助检测临时文件名。


通过开发单独的模型,可以为合作方最近所形成的第三方基于云的文件(如 Google DocsMicrosoft Office 365 的文件,这些文件会较少受到训练数据的影响)提供支持建议。同样的方法也可用于支持 Dropbox Paper 文档的建议。


添加了对文件夹建议的支持,它是利用经常使用和最近使用的文件作为信号来建议其父文件夹可能就是一个很好的备选的方式来实现的。与第三方文件一样,Dropbox 也为文件建议训练了一个单独的模型,训练数据来自于使用启发式模型运行的在线实验以及 Dropbox 中无人监督的用户事件数据集,这两者都是 Dropbox 机器学习基础设施的重要组成部分。


最后,通过学习每个模型所生成的分数到给定分数的建议项的预期 CTR 的映射,将各个不同的模型组合成一个单一模型。 由于 CTR 在所有子模型中都具有可比性,因此所有模型的建议都可以根据它们的预期 CTR 进行排序。


这项产品改进工作可以看作是 Dropbox 智能计划( Dropbox intelligence initiative ,DBXi)的另一个方面,Dropbox 智能计划是该公司将人工智能整合到其所有产品和服务中的尝试。这项工作还包括自动图像文本识别功能,它能够对文档照片(包括收据和字段报告)进行光学字符检测,使用户能够搜索更多类型的内容,并将机器学习模型集成到 Dropbox 的搜索功能中


处理各种类型内容的能力有助于该公司将 Spaces 产品定位为核心员工协作工具,并与 Slack、Google Drive 和 Microsoft Teams 等知名产品形成竞争。


原文链接:


Dropbox Predicts What File You Need Next With Content-Specific ML Pipelines


2019-12-20 09:001406

评论

发布
暂无评论
发现更多内容

深入理解分布式锁:原理、应用与挑战| 京东物流技术团队

京东科技开发者

一文盘点 Partisia Blockchain 生态 4 月市场进展

西柚子

软件测试过程中的痛点思考

老张

提升效率 质量保障

算法人生(5):从“元学习”看“战胜拖延”(没兴趣版)

糖小妹来了

机器学习 算法 元学习 走出拖延 拖延

算法人生(8):从“注意力算法”看“战胜拖延”(被分心太多版)

糖小妹来了

深度学习 算法 走出拖延 拖延 注意力算法

什么? 20分钟,构建你自己的LLaMA3应用程序| 京东云技术团队

京东科技开发者

一键自动化博客发布工具,用过的人都说好(cnblogs篇)

程序那些事

自动化 工具 程序那些事 自动发布

算法人生(4):从“选项学习”看“战胜拖延”(担心失败版)

糖小妹来了

算法 强化学习 走出拖延 拖延 选项学习

ChatGPT-5最新消息;预计包含Sora模型;附最新使用教程

蓉蓉

openai ChatGPT4

目前市面上堡垒机厂家有哪些?会帮忙部署吗?

行云管家

网络安全 数据安全 数据加密 堡垒机

算法人生(9):从“贝叶斯更新”看“战胜拖延”(消极预期版)

糖小妹来了

机器学习 算法 贝叶斯算法 走出拖延 拖延

云南等级保护测评机构有哪些?分别在哪里?

行云管家

等保 堡垒机 云南 等保测评机构

RWA会成为下一个风口吗?有哪些值得关注的项目?

区块链软件开发推广运营

dapp开发 区块链开发 链游开发 NFT开发 公链开发

魔兽争霸3冰封王座Warcraft III for mac 解除8M地图限制v1.24.0中文

Rose

「参数」让流水线动起来

都广科技

DevOps

算法人生(2):从“强化学习”看如何“活在当下”

糖小妹来了

算法 活在当下 强化学习

算法人生(3):从“贪心算法”看“战胜拖延”(完美主义版)

糖小妹来了

算法 拖延症 贪心算法 走出拖延 拖延

算法人生(6):从“反馈学习”看“战胜拖延”(被动攻击版)

糖小妹来了

算法 强化学习 走出拖延 拖延 反馈学习

GaussDB细粒度资源管控技术透视

华为云开发者联盟

数据库 华为云 华为云GaussDB 华为云开发者联盟 企业号2024年5月PK榜

深入理解java反射机制及应用 | 京东物流技术团队

京东科技开发者

商品上新业务状态机接入实践

得物技术

Java 前端 企业号 2024年5月 PK 榜

测试答疑助手:从需求文档到设计文档、测试用例的完整测试过程

霍格沃兹测试开发学社

算法人生(1):从“强化学习”看如何“战胜拖延”

糖小妹来了

算法 拖延症 强化学习 走出拖延 拖延

算法人生(7):从“时间折扣策略”看“战胜拖延”(等待最佳时机版)

糖小妹来了

算法 强化学习 走出拖延 拖延 时间折扣

【论文速读】| LLM4FUZZ:利用大语言模型指导智能合约的模糊测试

云起无垠

Dropbox如何改进内容建议模型_AI&大模型_Shay Palachy_InfoQ精选文章