速来报名!AICon北京站鸿蒙专场~ 了解详情
写点什么

魅族技术晚场回顾,算法、架构、AI 之外,还要考虑未来

  • 2017-07-20
  • 本文字数:2050 字

    阅读完需:约 7 分钟

很多技术人应该都参加过 InfoQ 举办的技术晚场,这是一种相对 open 且轻松的技术交流活动。

根据提前设置好的技术话题方向,请预先邀请好的小组组长带领小组成员进行讨论,基本上,每个愿意交流的成员都能和组长或者其他嘉宾充分交流。

在 7 月 7 日 ArchSummit 深圳架构师峰会上,魅族联合 InfoQ 共同策划举办了第 9 期以“大数据和 AI 应用实践”为主题的魅族技术开放日活动。活动邀请了 5 位小组长:分别是腾讯云大数据及 AI 产品中心技术专家 张杉,eBay 数据和商业智能研发总监 沈则潜,销售易技术 VP 赵宇辰,魅族高级算法工程师 李梦婷,魅族数据平台研发组长、架构师 张欢引。

现场讨论非常热烈,大家相见恨晚,各抒己见,畅所欲言,对于大数据平台架构、推荐系统、图像识别、机器学习等话题,几乎有说不完的想法,讨论不完的问题,借助这样的机会,确实可以帮助大家提供技术解决方案和新思路。

李梦婷小组讨论的内容以推荐算法为主,讨论了两个主要的技术点,一是用户画像体系的建立,这里面涉及用户数据获取的方式,一般包括自行收集数据、外部官方渠道的数据、市场采集数据。其次就是建立标准的标签体系,每一个标签通常是人为规定的特征标识,用高度精炼的特征描述一类人,例如年龄、性别、兴趣偏好等,不同的标签通过结构化的数据体系整合,就可组合出不同的用户画像。除此之外还涉及到画像的存储与索引、标签的计算方法,以及评价指标等内容。

二是讨论到了推荐系统,内容包括推荐系统架构,具体各个模块用到的算法以及效果如何,特征工程,线下评价以及线上评价的方式,算法人员和产品 / 运营之间的合作方式,推荐位与推广位的权衡等等。

张欢引小组的组员问到,魅族数据仓库是否是按主题分别存储的?除了行为数据外,像日志、DB 数据等是怎么接入数据仓库的这样的问题。

实际上,魅族数据仓库是基于一个大规模 Hadoop 集群上实现的,根据不同业务做不同主题划分,只不过是存储在一起的。数据开发人员在集成开发平台(或流平台)配置对应的任务,将各类行为记录、业务日志、DB、第三方数据通过定时离线抽取(或实时流)方式写入统一的数据仓库,大致流程如下图:

其次,组员们对魅族的用户画像系统存储实现的组建很感兴趣,以及对标签数据生成过程和具体的使用场景很有兴趣。

张欢引介绍,魅族用户画像主要有两种场景,所用的存储组件不同:

  • 圈人及画像洞查服务:用户通过 Web 进行操作,一次处理数据量大,响应时间要求在 3s 内,对比 Vertica 和 ES 后,最终用户宽表选择了 ES 方案。
  • DMP 服务主要是为 PUSH、推荐、广告等提供实时接口查询,并发高,要求在 ms 级响应。团队最后使用的是 HBase 方案(对于要求更苛刻的广告业务则使用了 Redis)。

用户画像数据魅族区分指标和标签有两个概念,举例而言:用户消费金额数是指标(0.1 元等),而基于此基础上的消费金额等级(高、中、低)则是标签。标签可通过标签规则设置,实则由指标生成。标签数据生成过程如下:

上述生成过程有两个不足:一是会因为某一个指标或标签的生成 delay 而造成整体标签宽表输出延后,另一个是未考虑实时标签。所以魅族新的方案是将生成的单个标签融合入宽表过程改为单个标签实时 put(或 post),这样就有效的避免了不足之处。目前魅族画像数据已经为活动分析、营销推广、推荐、广告及业务本身运营提供了支撑。

赵宇辰作为大数据方面的技术大触,和沈则潜老师带领数据挖掘和机器学习讨论组过程中,展开了关于人工智能话题的热烈讨论。在深度学习非常火爆的今天,小组首先分析了深度学习最常见的几个应用场景:图像,声音和文本。机器学习从传统的 Feature Engineering(特征工程)随之转向深度模型的 Architecture Engineering(架构工程)。

随后小组又讨论了深度学习是否需要大量数据作为训练,在实际应用场景中,如果没有大量数据,Transfer Learning(迁移学习)等技术是否能在此有所应用。来自阿里的组员还分享了阿里在深度学习特别是自然语言处理上的应用,从多轮对话机器人到情感分析,再到知识库,甚至自然语言生成 Natural Language Generation(NLG)等等,对整个小组的话题引导和经验分享都非常有帮助。来自企业服务(B2B)的小伙伴们分享了在 B2B 领域人工智能应该如何发挥作用和应用机器学习的未来愿景。

张杉老师带领小组进行图像识别的话题讨论,讨论结果认为,图像识别在未来的好几个场景是有落地基础的,包括工业制造,智慧城市,智慧医疗,智慧驾驶,以及金融行业。同时在智能医疗上也有可能落地,未来的影象资料结合 AI 是可以实现的,对于诊断有很大的帮助。

最后小组也讨论了支撑图像识别的技术,尤其在深度学习的大背景下,深度学习其实在很大程度上是大数据的一个发展积累;另外一个重要的条件就是“计算能力+算法”,GPU 的出现使得计算能力更进一步,这两者是图像识别的一个重要资源。当然除此之外,小组还聊到了 AI 时代哪些岗位可能会被替代?例如智能客服的出现,很有可能会取代传统的人工客服岗位。另外数据分析岗位也在可能性行列,数据生成结果之后,怎么往数据中心去迁移则是需要重点考虑的事情。

2017-07-20 23:371650
用户头像

发布了 181 篇内容, 共 94.9 次阅读, 收获喜欢 207 次。

关注

评论

发布
暂无评论
发现更多内容

Druid 集群方式部署 —— 配置调整

HoneyMoose

Druid 集群方式部署 —— 端口调整

HoneyMoose

☕【Java技术指南】教你如何使用【精巧好用】的DelayQueue(延时队列)

洛神灬殇

Java 延迟队列 8月日更 DelayedQueue

Linux中buff-cache占用过高解决方案

入门小站

Linux

在线邮箱地址提取工具

入门小站

工具

分布式认知工业互联网平台如何赋能企业数字化转型?

CECBC

yyds,Win10真香!!!

Jackpop

字节跳动旗下大力教育大批量裁员,赔偿 n+2

hanaper

【前端 · 面试 】HTTP 总结(六)—— HTTP 版本区别

编程三昧

面试 HTTP 8月日更 http版本

Druid 集群方式部署 —— 启动服务

HoneyMoose

前端之数据结构(三)集合和字典

Augus

数据结构 8月日更

docker编排参数详解(docker-compose.yml配置文件编写)

xcbeyond

Docker 容器 8月日更

架构训练营 模块4作业

sophiahuxh

明道实施与需求的耦合

明道云

Druid 集群方式部署 —— 配置 Zookeeper 连接

HoneyMoose

两个小女孩

箭上有毒

8月日更

DataFrame数据创建:10种方式任你选

Peter

Python 数据分析 pandas

Pandas系列_DataFrame数据筛选(上)

Peter

Python 数据分析 pandas

JavaScript代码片段学设计模式

devpoint

设计模式 工厂模式 8月日更

【设计模式】桥接模式

Andy阿辉

编程 后端 设计模式 8月日更

超全激活函数学习总结!!!

Shirakawa

神经网络 机器学习 算法 激活函数

元数据管理服务分析报告

漫长的白日梦

数据湖 AWS 元数据

浅谈限流组件的应用和设计原则

xiaoxi666

redis sentinel 分布式限流 redisson redis-cell

linux中常见工具安装问题集锦

liuzhen007

8月日更

spring的循环依赖

卢卡多多

spring aop 8月日更

在明道云上搭建的应用维护管理的几点建议

明道云

我受够WIN10了!!!

Jackpop

网络攻防学习笔记 Day97

穿过生命散发芬芳

态势感知 网络攻防 8月日更

深入了解NIO底层原理

陈皮的JavaLib

Java 面试 nio 8月日更

有状态流处理简介(一)

Databri_AI

flink 批处理 状态

Druid 使用 Kafka 数据加载教程——下载和启动 Kafka

HoneyMoose

魅族技术晚场回顾,算法、架构、AI之外,还要考虑未来_大数据_Xue Liang_InfoQ精选文章