报名参加CloudWeGo黑客松,奖金直推双丰收! 了解详情
写点什么

从 Twitter 留言预测用户收入

  • 2015-12-08
  • 本文字数:1415 字

    阅读完需:约 5 分钟

利用社交媒体上发表的内容来自动推断用户特征,对于社会科学、市场学和政治学研究有着非常重要的意义。近日,宾夕法尼亚大学的 Daniel Preoţiuc-Pietro 等人就利用 Twitter 上的数据构建了预测用户收入的模型。该模型很好的揭露了不同特征分类和收入之间的关系,同时也发现了很多有意思的现象。

随着信息技术的迅速发展,社交媒体也开始为越来越多的人提供服务。社交网站中所接收的用户数据也随之飞速增长,为社会科学中复杂问题的研究提供了充分支撑。对这些数据的分析可以很好的披露出语言模式和用户特征(如位置、年纪以及政治倾向等)。由此,这些信息可以用于大规模社会科学研究,并可帮助进行更有针对性的广告营销等。

Daniel 等人的研究以自动推导社交媒体中用户的收入为出发点。在训练和测试阶段,该团队使用了已经表明收入的 Twitter 用户数据集,其中包括了 Twitter 平台的相关统计数据和历史内容。为了便于分析,Daniel 等人的研究以 Twitter 用户和职位之间的映射为基础,采用了英国政府的标准化职业分类(Standard Occupational Classification,SOC)方法,将所有职业根据职能要求和内容分成了9 个大组。最终的测试数据就牵涉到了9 个组的5191 个用户,及其10,796,836 条留言。

预测模型使用了很多特征作为参考,包括了简单的用户简历特征(如朋友数量、追随者数量以及平均每天留言的数量等)、人口统计特征(如年纪、性别、政治倾向以及智力等)、用户情绪特征(开心的、伤心的、生气的以及惊讶的留言的比例等)和浅层的文本特征(非复制留言的比例、转发留言的比例以及平均的留言数量等)。

而且,他们采用了线性和非线性学习算法来构建收入模型。其线性学习算法使用的是带 Elastic Net 调节 logistic 回归分析。第一个非线性学习算法则使用带径向基核函数(Radial Basis Function ,RBF)的支持向量机(Support Vector Machine,SVM)。但由于SVM 并不支持指定最重要的若干特征,Daniel 等人又采用高斯过程(Gaussian Process)构建了一个贝叶斯非参数化的统计框架。最后,预测模型把所有特征集模型的结果采用线性权重的方式结合在了一起。

为了测量预测模型的精确度,Daniel 等人的研究首先针对用户收入进行了评估,其试验过程采用了十折交叉验证:把原始的数据随机分成10 个部分,选择其中一个作为测试数据,一个作为参数微调的数据,剩下的8 个作为训练数据。最终结果表明,用户数据和用户发表的内容之间的皮尔逊相关系数最大可达到0.633(0.6-0.8 表示“强相关”),证实了模型的精确性。

该工作的另外一个目标是深入发掘Twitter 上与用户收入相关的特征。通过检查模型的输出和对参数进行量化分析,团队发掘出了收入和语言使用以及Twitter 中用户行为之间的关系,其中包括了很多已知和未知的现象。例如,已经为公众所接受和熟知的现象是:收入和受教育程度、智力、年龄以及性别等相关。另外的一些发现就显得特别有意思:无派别且生活从容的用户收入较高;收入越高的用户越容易产生生气和惧怕的情绪,从而经常发表一些感性的内容;高收入用户更多地谈论政治,非政府组织以及合作的话题,而低收入者则更多地倾向于使用低俗语言。


感谢董志南对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入 InfoQ 读者交流群(已满),InfoQ 读者交流群(#2))。

2015-12-08 18:002592
用户头像

发布了 268 篇内容, 共 127.2 次阅读, 收获喜欢 24 次。

关注

评论

发布
暂无评论
发现更多内容

Groovy中的元组

FunTester

测试开发 元组 Groovy FunTester tuple

Redis 高可用篇:图解 Redis 哨兵集群原理

码哥字节

redis redis sentinel NoSQL 数据库 11月日更

知乎热榜第一破10w阅读-Android不行了?2021程序员的风口又要来了,你还不抓紧机会

android 程序员 移动开发

种草Dribbble:从未见过如此Q弹的Switcher,腾讯架构师深入讲解Android开发

android 程序员 移动开发

《Linux一学就会》第一章第二节:学习环境搭建

侠盗安全

Linux linux运维 云计算架构师 linux电子书

程序员中年了40岁,公司里熬到中层年薪30w+,最新高频Android面试题目分享

android 程序员 移动开发

SAP云平台里Global Account和Sub Account的关系

汪子熙

Cloud SAP CloudFoundry 11月日更

程序员别只顾着敲代码了,老板们不喜欢聘请40岁程序员真相原来是

android 程序员 移动开发

重置云服务器系统

坚果

云服务器 11月日更

破解 Kotlin 协程(1) - 入门篇,35岁以后的Android程序员出路在哪里

android 程序员 移动开发

移动开发的罗曼蒂克消亡史 _ InfoQ,网易云的朋友给我这份339页的Android面经

android 程序员 移动开发

程序员35岁之后该怎样规划自己的职业?,Android开发手册

android 程序员 移动开发

移动应用遗留系统重构(9)- 路由篇(1),kotlin版权

android 程序员 移动开发

移动开发的罗曼蒂克消亡史,android系统开发书籍

android 程序员 移动开发

使用Eclipse开发Java应用并部署到SAP云平台SCP上去

汪子熙

Cloud SAP 11月日更 sap开发

程序员为什么越老贬值的越厉害?,面试官6个灵魂拷问

android 程序员 移动开发

真的强!借助阿里技术博主分享的Android面试笔记,我拿到了字节跳动的offer

android 程序员 移动开发

知乎3000多人关注!27w+阅读开发者进阶难题,2021安卓开发社招面试解答之性能优化

android 程序员 移动开发

移动应用遗留系统重构(9)- 路由篇,移动开发者大会

android 程序员 移动开发

真的已经讲烂了!想彻底掌握-binder-机制,必须先搞懂这几个关键类

android 程序员 移动开发

移动应用遗留系统重构(7)- 解耦重构演示篇(一),android开发环境的搭建视频

android 程序员 移动开发

移动开发程序员怎么优雅迈过30K+这道坎?成功入职字节跳动

android 程序员 移动开发

看完此文,你对Gradle的理解又升级了!,万字总结

android 程序员 移动开发

看我一波,Android获取进程名函数,代码优化到极致的操作

android 程序员 移动开发

移动端视频开发通过什么方式实现直播?十分钟带你快速了解

android 程序员 移动开发

值得收藏的 Eureka 控制台详解

悟空聊架构

Eureka 源码解析 注册中心 悟空聊架构 11月日更

【Flutter 专题】17 图解 ListView 下拉刷新与上拉加载 (二)【NotificationListener】

阿策小和尚

Flutter 小菜 0 基础学习 Flutter Android 小菜鸟 11月日更

【高并发】明明中断了线程,却为何不起作用呢?

冰河

并发编程 多线程 高并发 异步编程 Java Concurrency

百度阿里腾讯头条面试Android高级岗必问!Handler源码解析!

android 程序员 移动开发

程序员30岁+又怎么了呢?找准定位,kotlin可选参数

android 程序员 移动开发

程序员你所害怕的中年危机,恰恰是人生的转机!,kotlin高阶函数源码讲解

android 程序员 移动开发

从Twitter留言预测用户收入_大数据_张天雷_InfoQ精选文章