写点什么

Dropbox 如何改进内容建议模型

  • 2019-12-20
  • 本文字数:1215 字

    阅读完需:约 4 分钟

Dropbox如何改进内容建议模型

Dropbox 机器学习团队在最近的博客中分享了他们内容建议content suggestion)功能背后的模型,介绍了该模型如何处理不同类型的内容,如何将文件夹建议合并到现有的文件建议模型中,以及如何处理基于云的第三方内容。


该内容建议功能于今年4月份开始推出,在 Dropbox 主页的顶部添加了一个“建议文件”部分,它旨在方便用户在使用 Dropbox 时能快速访问其所要查找的文件,这与谷歌云端硬盘的“快速访问”功能非常相似。


该功能最初只支持文件推荐,并且是基于一个相对较浅的神经网络模型,该模型使用各种显著信号以及与任务无关的 Dropbox 实体嵌入(其中包括 Dropbox 用户、文件和文件夹的深层语义向量表示),来预测基于启发式候选集文件的 CTR(点击率)。这种方法类似于谷歌“快速访问”背后的机器学习模型所使用的方法


最近对内容建议模型的改进包含了几个新的组件, 以应对不同的挑战:


为了改进现有文件建议模型的预测功能,模型使用文件名和扩展名合并了更多有关文件的信息。文件扩展名被合并到特征向量中,但它不是通过使用简单的 one-hot 编码方案实现的,而是通过学习一个嵌入空间来实现的,在这个嵌入空间中语义相似的文件扩展名(例如 .jpg 和 .png)是紧密相连的,从而可以使模型从分布不均的数据中学习。此外,文件名的嵌入是通过获取 char-RNN 的状态向量来创建的,每次只摄取文件名的一个字符,以帮助检测临时文件名。


通过开发单独的模型,可以为合作方最近所形成的第三方基于云的文件(如 Google DocsMicrosoft Office 365 的文件,这些文件会较少受到训练数据的影响)提供支持建议。同样的方法也可用于支持 Dropbox Paper 文档的建议。


添加了对文件夹建议的支持,它是利用经常使用和最近使用的文件作为信号来建议其父文件夹可能就是一个很好的备选的方式来实现的。与第三方文件一样,Dropbox 也为文件建议训练了一个单独的模型,训练数据来自于使用启发式模型运行的在线实验以及 Dropbox 中无人监督的用户事件数据集,这两者都是 Dropbox 机器学习基础设施的重要组成部分。


最后,通过学习每个模型所生成的分数到给定分数的建议项的预期 CTR 的映射,将各个不同的模型组合成一个单一模型。 由于 CTR 在所有子模型中都具有可比性,因此所有模型的建议都可以根据它们的预期 CTR 进行排序。


这项产品改进工作可以看作是 Dropbox 智能计划( Dropbox intelligence initiative ,DBXi)的另一个方面,Dropbox 智能计划是该公司将人工智能整合到其所有产品和服务中的尝试。这项工作还包括自动图像文本识别功能,它能够对文档照片(包括收据和字段报告)进行光学字符检测,使用户能够搜索更多类型的内容,并将机器学习模型集成到 Dropbox 的搜索功能中


处理各种类型内容的能力有助于该公司将 Spaces 产品定位为核心员工协作工具,并与 Slack、Google Drive 和 Microsoft Teams 等知名产品形成竞争。


原文链接:


Dropbox Predicts What File You Need Next With Content-Specific ML Pipelines


2019-12-20 09:001288

评论

发布
暂无评论
发现更多内容

百度“文心一言”发布两天12家企业签约,申请测试企业破9万

科技热闻

AlertDialog(对话框)详解

芯动大师

android AlertDialog 对话框

开源可观测性平台SigNoz

骑牛上青山

开源 调用链 OpenTelemetry signoz

Java泛型介绍

TaurusCode

Java泛型

希望计算机专业同学都知道这些宝藏博主

程序员大彬

自学编程 计算机 计算机专业

软件测试/测试开发丨持续交付-Jenkinsfile 语法

测试人

软件测试 自动化测试 测试开发

TGO笔记-AIGC分享之投资视角(61/100)

hackstoic

AI ChatGPT 创业投资

《C++编程规范-101条规则 准则与最佳实践》读书笔记

老王同学

c++ 读书笔记

站在工作的角度体验一下文心一言

IT蜗壳-Tango

IT蜗壳 ChatGPT 文心一言 文心一言测试

手把手教你Mac重装系统不再难:苹果电脑重装系统教程

互联网搬砖工作者

「百幄」系列 | 在线会议套件,让政企协作更安全高效

融云 RongCloud

通信 办公 政企 数智化转型 在线会议

软件测试/测试开发丨持续交付-Blue Ocean 应用

测试人

软件测试 自动化测试 测试开发

简单的文件同步工具:SyncTime激活版

真大的脸盆

Mac Mac 软件 同步文件工具 同步工具

Golden Gate 发布项目白皮书,测试网络即将上线

股市老人

欢迎来到 Python 入门级教程!

阿呆

Python

Bytebase 体验官之狂飙的 ChatGPT

朱亚光

SpringBoot启动之准备系统环境environmentPrepared

石臻臻的杂货铺

spring springboot

树状数组模板与练习

timerring

算法

测试人社区软件测试技术沙龙,基于代码链路分析的白盒精准测试方案

测试人

软件测试 自动化测试 精准测试 测试开发

CPU基础知识详解

timerring

cpu

霸榜牛客!阿里P8大牛整理的Java面试核心知识点竟如此霸道

Java你猿哥

Java 面试 ssm 面经 java核心知识

凭借这份阿里2023版Java架构师面试指南,我一周时间斩获了5个Offer!

Java永远的神

程序员 程序人生 后端 架构师 java面试

DUIN开源的镜像更新通知工具

mengzyou

container DevOps image

如何把握未来技术的演进方向

Ethan

如何重装mac系统,u盘安装苹果macos系统教程

互联网搬砖工作者

关于如何提升研发效能的一些思考

阿呆

能快速构建和定制网络拓扑图的WPF开源项目-NodeNetwork

沙漠尽头的狼

开源WPF项目 网络拓扑图

python中进程、线程、协程的实践

阿呆

3D视觉特效剪辑合成: Flame 2023 激活版

真大的脸盆

Mac Mac 软件 视频特效合成 视频特效工具

腾讯架构师手撸这份标星过万的"计算机网络协议笔记"全网爆火

Java你猿哥

架构 网络安全 ssm 架构师 分布式架构

域名备案不备案的区别是什么?

源字节1号

运维 软件开发 前端开发 后端开发 小程序开发

Dropbox如何改进内容建议模型_AI&大模型_Shay Palachy_InfoQ精选文章