TalkingData是国内一家数据服务提供商,我们梳理了相关文章,初探TalkingData如何在实践中构建数据中台的数据连接、数据管理、数据安全、数据工程、数据开放能力。
TalkingData 基于人口属性、移动端行为偏好等建立了拥有六大类别、800 多个标签的标签体系,维度非常多。这对数据的处理分析提出了巨大的挑战。
在大数据、AI 盛行的时代,无论是传统企业还是第三方数据服务公司,都逐步认识到数据资产的重要性。营销是数据的变现的重要突破口,而千人千面的个性化营销需求有力地促进了大数据技术在传统行业的落地——用户 360 画像、标签、人群……成了一套大数据营销产品必不可少的元素。
伴随着移动互联网和物联网的发展,大数据概念开始产生,但并不是所有的数据都能称为大数据,IT 调研与咨询服务公司 Gartner 对“大数据”的定义是:需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
Akka 是 Scala 语言实现的一套基于 Actor 模型的异步通信框架,可用于构建高并发、分布式、可容错、事件驱动的基于 JVM 的应用,在 Spark 中曾被用于实现进程、节点间通信,在实际项目中协助我们成功搭建了满足业务需求的模型部署平台。
本文是 10 月 27 日大数据杂谈群分享的内容。 说起大数据的应用可能很多朋友们脑子里边第一映像就是画像,我想从以下几个方面跟大家聊聊画像相关的事情:1、什么是画像;2、画像的用处;3、如何进行用户画像;4 画像应用中的难点。
TalkingData 基于人本数据,结合机器学习等手段,整合了数据、算法,帮助传统其他更实时、全景的观察现实世界,提高了分析效率,增强了分析的客观性。
众所周知,Docker 容器跨主机互访一直是一个问题,Docker 官方为了避免网络上带来的诸多麻烦,故将跨主机网络开了比较大的口子,而由用户自己去实现。目前 Docker 跨主机的网络实现方案也有很多种,主要包括端口映射、ovs、 fannel 等。但是这些方案都无法满足 TalkingData 的需求, 最后我们采取了自主研发扁平化网络插件,也就是说让所有的容器统统在大二层上互通。
TalkingData 大规模机器学习算法库 Fregata 开源了。LR 和 Softmax 算法无需调参,对于大多数问题扫描数据一遍可收敛;LR 算法在 10 亿样本千万维度训练集上 10 分钟(10 台服务器 Spark 集群,无内存加速)可完成训练。
机器学习有很多算法,学术上的分类都是公认的。TalkingData 内部更多的是看一个算法或者算法的实现是适合处理大数据还是小数据,会根据这个标准分成两类。 我们既要处理互联网公司的超大规模数据,又要支持很多小规模数据的客户需求,所以我们的情况比较复杂。大规模数据处理的算法栈基于 Spark,我们做了大量基于 Spark 的算法创新和优化;小规模数据的处理主要是一些具体客户项目,在于对一些乙方数据的挖掘,因为数据处理中遇到的技术问题不是特别大,所以主要使用基于 Python、R 的算法库。
TalkingData 拥有千台以上服务器的大数据业务集群,所以对于系统的监控能力、指标的实时分析和历史报警信息追查也就有一定的要求,而且由于机器数量较多,我们也需要一些灵活的报警策略应对不同的情况。我们之前版本的监控系统有诸多弊病,主要是非常难于部署安装,而且对于更改某一台主机的监控项会非常苦难,所以最后选择了用 Go 语言开发下一个版本的监控系统,主要是因为可以满足用户的定制化的需求并且具备高易用性。
监控系统是整个 IT 架构中的重中之重,小到故障排查、问题定位,大到业务预测、运营管理,都离不开监控系统,可以说一个稳定、健康的 IT 架构中必然会有一个可信赖的监控系统,而一个监控系统的基石则是一个稳定而健壮的数据采集系统。
在运维更名为技术运营的两年内,我们对这个团队的工作目标产生了新的理解,工作内容也逐渐从传统的维护往 DevOps 方向转化。技术运营,简单地讲就是利用技术手段,降低资源消耗,提高基础资源的运行效率,提高整个软件生命周期运行的效率。
在“移动+大数据”的创业浪潮里,TalkingData 无疑是国内最引人关注的新锐企业之一。作为目前国内最大的独立第三方移动数据服务品牌,其产品及服务涵盖了移动应用数据统计、移动广告监测、移动游戏运营、公共数据查询、综合数据管理、数据咨询服务等多款极具针对性的产品及服务。InfoQ 以移动大数据团队架构为切入口,与 TalkingData CTO 肖文峰就近年来 TalkingData 移动大数据业务快速升级迭代中的技术更新和团队建设话题进行了交流,并围绕“移动,数据,价值”核心理念畅想了大数据应用的未来愿景。
TalkingData 在 8 月中旬正式对外公布了自助研发的下一代移动应用统计分析系统 —— 灵动分析系统。对比此前的各种移动应用统计分析产品,灵动分析的最大特点是大幅简化了数据集成过程,只需在 App 中加入分析 SDK,无需再编写任何代码和更新 App 版本,即可实现事件跟踪、增删数据点等操作,做到完全零代码数据跟踪。这极大的简化了研发人员的工作,同时也能让产品和数据分析人员任何的天马行空数据需求瞬间得到满足,大幅提高运营效率。
TalkingData 这 4 年来在移动统计分析上投入巨大,就是为了去填平诸多的坑。但是很多人是不到黄河心不死,所以我鼓励大家都来做做统计分析平台,一起来踩坑,“望山跑死马”,只有跑断几条腿,大家才会有感觉。为了避免大家吃亏以后怪我言之不预,所以今天重点聊聊移动统计分析的坑。
数据贯穿了人工智能的始终,虽然不同层级和领域的企业对数据的应用程度和应用方式各不相同,但是对数据数量和质量上的要求是相同的。许多学术界学者开始进入工业界的一大原因,就是因为工业界拥有大量、一手的数据——这是人工智能发展必不可少的动力与燃料。李开复曾提到,人工智能更适用于拥有大数据基础,且数据量可以实现自我推动的公司,所以,在加入人工智能领域的竞争之前,不妨先看看自己的数据准备是否充分。
像圣经里描述的一样,人们想要登上天堂,于是齐心协力开始搭建巴别塔。那么什么是通往大数据最终目标的巴别塔? 本文通过三个问题(市场、自身、流程三方面)的解答,再一步步了解大数据的整条学习路径。
2018 年 5 月 25 日,号称史上针对隐私保护最为严苛的欧洲 GDPR(General Data Protection Regulation)正式开始实施。我国于去年正式出台了网络安全法,而关于数据隐私安全保护的相关的条例也正在征求意见中。这些都说明了,在无法阻挡的数字化转型浪潮下,企业在享受大数据带来的各种好处的同时,也都需要应对如何保护数据主体的数据安全的问题。
为了解决金融数据共享的矛盾,我们设计了一套基于密码技术的方案,既可以保护数据需求方商业机密,又保障数据供应方数据安全,同时还可以精确计量数据使用。