写点什么

从 Twitter 留言预测用户收入

  • 2015-12-08
  • 本文字数:1415 字

    阅读完需:约 5 分钟

利用社交媒体上发表的内容来自动推断用户特征,对于社会科学、市场学和政治学研究有着非常重要的意义。近日,宾夕法尼亚大学的 Daniel Preoţiuc-Pietro 等人就利用 Twitter 上的数据构建了预测用户收入的模型。该模型很好的揭露了不同特征分类和收入之间的关系,同时也发现了很多有意思的现象。

随着信息技术的迅速发展,社交媒体也开始为越来越多的人提供服务。社交网站中所接收的用户数据也随之飞速增长,为社会科学中复杂问题的研究提供了充分支撑。对这些数据的分析可以很好的披露出语言模式和用户特征(如位置、年纪以及政治倾向等)。由此,这些信息可以用于大规模社会科学研究,并可帮助进行更有针对性的广告营销等。

Daniel 等人的研究以自动推导社交媒体中用户的收入为出发点。在训练和测试阶段,该团队使用了已经表明收入的 Twitter 用户数据集,其中包括了 Twitter 平台的相关统计数据和历史内容。为了便于分析,Daniel 等人的研究以 Twitter 用户和职位之间的映射为基础,采用了英国政府的标准化职业分类(Standard Occupational Classification,SOC)方法,将所有职业根据职能要求和内容分成了9 个大组。最终的测试数据就牵涉到了9 个组的5191 个用户,及其10,796,836 条留言。

预测模型使用了很多特征作为参考,包括了简单的用户简历特征(如朋友数量、追随者数量以及平均每天留言的数量等)、人口统计特征(如年纪、性别、政治倾向以及智力等)、用户情绪特征(开心的、伤心的、生气的以及惊讶的留言的比例等)和浅层的文本特征(非复制留言的比例、转发留言的比例以及平均的留言数量等)。

而且,他们采用了线性和非线性学习算法来构建收入模型。其线性学习算法使用的是带 Elastic Net 调节 logistic 回归分析。第一个非线性学习算法则使用带径向基核函数(Radial Basis Function ,RBF)的支持向量机(Support Vector Machine,SVM)。但由于SVM 并不支持指定最重要的若干特征,Daniel 等人又采用高斯过程(Gaussian Process)构建了一个贝叶斯非参数化的统计框架。最后,预测模型把所有特征集模型的结果采用线性权重的方式结合在了一起。

为了测量预测模型的精确度,Daniel 等人的研究首先针对用户收入进行了评估,其试验过程采用了十折交叉验证:把原始的数据随机分成10 个部分,选择其中一个作为测试数据,一个作为参数微调的数据,剩下的8 个作为训练数据。最终结果表明,用户数据和用户发表的内容之间的皮尔逊相关系数最大可达到0.633(0.6-0.8 表示“强相关”),证实了模型的精确性。

该工作的另外一个目标是深入发掘Twitter 上与用户收入相关的特征。通过检查模型的输出和对参数进行量化分析,团队发掘出了收入和语言使用以及Twitter 中用户行为之间的关系,其中包括了很多已知和未知的现象。例如,已经为公众所接受和熟知的现象是:收入和受教育程度、智力、年龄以及性别等相关。另外的一些发现就显得特别有意思:无派别且生活从容的用户收入较高;收入越高的用户越容易产生生气和惧怕的情绪,从而经常发表一些感性的内容;高收入用户更多地谈论政治,非政府组织以及合作的话题,而低收入者则更多地倾向于使用低俗语言。


感谢董志南对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入 InfoQ 读者交流群(已满),InfoQ 读者交流群(#2))。

2015-12-08 18:002418
用户头像

发布了 268 篇内容, 共 122.1 次阅读, 收获喜欢 24 次。

关注

评论

发布
暂无评论
发现更多内容

番外篇:新鲜上市的Unicorn - Pinterest的数据系统

顾仲贤

CECBC区块链专委会副主任吴桐受邀成为伏羲智库兼职研究员

CECBC

区块链技术 吴桐 商务部CECBC 伏羲智库 政务链

LeetCode 题解:1051. 高度检查器,JavaScript,先排序再比较,详细注释

Lee Chen

大前端 LeetCode

kubernetes 集群安装(kubeadm)

小小文

Docker Kubernetes 群集安装 etcd

区块链想要拥有互联网级的用户体验,如何从应用层与公链去改进?

CECBC

那些好用的命令

北漂码农有话说

盘点本周区块链国内大事件

CECBC

使用 Docker 部署 Django + MySQL 8 开发环境

AlwaysBeta

MySQL django Docker Dockerfile Docker-compose

架构师训练营第六周课后总结

Cloud.

架构师训练营架构第七周总结

Cloud.

性能压测的时候,系统响应时间和吞吐量如何变化,为什么?

不在调上

追光逐影:曝光相对论(1)

北风

摄影 影调 曝光 黑白

命令行一键启动Hadoop集群

我是个bug

大数据 hadoop hdfs YARN Big Data

生活困境

落曦

解决火狐新窗口打开网页被拦截问题

Lee Chen

大前端

Windows Sandbox

Dare Devor

Sandbox Virtualization

手写一个Vue风格组件

林浩

Java 大前端 webpack

学习Rust,我的一些体会

Kurtis Moxley

编程 rust 随笔杂谈

week7

不在调上

流量控制算法

架构 流量控制 流控算法

redis系列之——数据持久化(RDB和AOF)

诸葛小猿

redis 持久化 aof rdb

区块链技术助力打造新公益样板

CECBC

ARTS Week8

时之虫

ARTS 打卡计划

个人博客网站搭建

北漂码农有话说

【总结】性能优化

小胖子

Swift十年

SwiftMic

Swift十年

看动画学算法之:排序-归并排序

程序那些事

Java 算法 排序 归并排序

看动画学算法之:排序-选择排序

程序那些事

数据结构 算法 动画

隐私计算:实现数据价值释放的突破口

CECBC

密码学 政策扶持 隐私计算 发展现状

云原生技术栈的关键技术

李英俊

云原生 Go 语言

可读代码编写炸鸡八 - 变量兜兜转转像是一场梦

多选参数

代码 代码组织 代码规范 可读代码编写 可读代码

从Twitter留言预测用户收入_大数据_张天雷_InfoQ精选文章