速来报名!AICon北京站鸿蒙专场~ 了解详情
写点什么

从 Twitter 留言预测用户收入

  • 2015-12-08
  • 本文字数:1415 字

    阅读完需:约 5 分钟

利用社交媒体上发表的内容来自动推断用户特征,对于社会科学、市场学和政治学研究有着非常重要的意义。近日,宾夕法尼亚大学的 Daniel Preoţiuc-Pietro 等人就利用 Twitter 上的数据构建了预测用户收入的模型。该模型很好的揭露了不同特征分类和收入之间的关系,同时也发现了很多有意思的现象。

随着信息技术的迅速发展,社交媒体也开始为越来越多的人提供服务。社交网站中所接收的用户数据也随之飞速增长,为社会科学中复杂问题的研究提供了充分支撑。对这些数据的分析可以很好的披露出语言模式和用户特征(如位置、年纪以及政治倾向等)。由此,这些信息可以用于大规模社会科学研究,并可帮助进行更有针对性的广告营销等。

Daniel 等人的研究以自动推导社交媒体中用户的收入为出发点。在训练和测试阶段,该团队使用了已经表明收入的 Twitter 用户数据集,其中包括了 Twitter 平台的相关统计数据和历史内容。为了便于分析,Daniel 等人的研究以 Twitter 用户和职位之间的映射为基础,采用了英国政府的标准化职业分类(Standard Occupational Classification,SOC)方法,将所有职业根据职能要求和内容分成了9 个大组。最终的测试数据就牵涉到了9 个组的5191 个用户,及其10,796,836 条留言。

预测模型使用了很多特征作为参考,包括了简单的用户简历特征(如朋友数量、追随者数量以及平均每天留言的数量等)、人口统计特征(如年纪、性别、政治倾向以及智力等)、用户情绪特征(开心的、伤心的、生气的以及惊讶的留言的比例等)和浅层的文本特征(非复制留言的比例、转发留言的比例以及平均的留言数量等)。

而且,他们采用了线性和非线性学习算法来构建收入模型。其线性学习算法使用的是带 Elastic Net 调节 logistic 回归分析。第一个非线性学习算法则使用带径向基核函数(Radial Basis Function ,RBF)的支持向量机(Support Vector Machine,SVM)。但由于SVM 并不支持指定最重要的若干特征,Daniel 等人又采用高斯过程(Gaussian Process)构建了一个贝叶斯非参数化的统计框架。最后,预测模型把所有特征集模型的结果采用线性权重的方式结合在了一起。

为了测量预测模型的精确度,Daniel 等人的研究首先针对用户收入进行了评估,其试验过程采用了十折交叉验证:把原始的数据随机分成10 个部分,选择其中一个作为测试数据,一个作为参数微调的数据,剩下的8 个作为训练数据。最终结果表明,用户数据和用户发表的内容之间的皮尔逊相关系数最大可达到0.633(0.6-0.8 表示“强相关”),证实了模型的精确性。

该工作的另外一个目标是深入发掘Twitter 上与用户收入相关的特征。通过检查模型的输出和对参数进行量化分析,团队发掘出了收入和语言使用以及Twitter 中用户行为之间的关系,其中包括了很多已知和未知的现象。例如,已经为公众所接受和熟知的现象是:收入和受教育程度、智力、年龄以及性别等相关。另外的一些发现就显得特别有意思:无派别且生活从容的用户收入较高;收入越高的用户越容易产生生气和惧怕的情绪,从而经常发表一些感性的内容;高收入用户更多地谈论政治,非政府组织以及合作的话题,而低收入者则更多地倾向于使用低俗语言。


感谢董志南对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入 InfoQ 读者交流群(已满),InfoQ 读者交流群(#2))。

2015-12-08 18:002442
用户头像

发布了 268 篇内容, 共 123.1 次阅读, 收获喜欢 24 次。

关注

评论

发布
暂无评论
发现更多内容

如何使用 NFTScan NFT API 在 Blast 网络上开发 Web3 应用

NFT Research

API NFT\ NFTScan

Puppet 2024年度报告:平台工程发掘 DevOps 无限潜质

SEAL安全

DevOps 平台工程 puppet

详解SpringBoot的常用注解

百度搜索:蓝易云

云计算 Linux 运维 springboot 云服务器

达芬奇调色软件破解版 davinci resolve 18.6.6最新中文安装包

Rose

DaVinci Resolve 破解 DaVinci Resolve18下载 达芬奇下载 达芬奇视频调色

霍格沃兹测试开发学社,全方位的测试解决方案提供商

霍格沃兹测试开发学社

章文嵩等技术大咖共同探讨企业数据治理和降本增效策略运用!

AutoMQ

#云原生 KubeBlocks #Kafka #OceanBase #AutoMQ

cURL 命令全面解析:提高工作效率

Apifox

程序员 前端 后端 API curl

苹果电脑3D壁纸屏保 Screen Wonders动态壁纸

Rose

动态壁纸 Screen Wonders壁纸 苹果电脑屏保 mac屏保

ICP Rust CDK|使用Rust构建智能合约并操作canisters

TinTinLand

黑客 编程学习 ICP

苹果电脑软件开发工具:Xcode 15全新发布

Rose

编程开发 Xcode Mac版 Xcode 15

centos用ssh登录连接缓慢处理

百度搜索:蓝易云

Linux centos 运维 SSH 云服务器

工业物联网App开发:连接未来智能制造的关键

天津汇柏科技有限公司

数字化转型 工业物联网

低代码无法取代程序员,但为什么很多程序员却反感低代码?

天津汇柏科技有限公司

程序员 低代码 数字化转型

Hype 4 Pro:打造惊艳HTML5动画与交互设计的全能之选

Rose

html5 网页制作 交互设计工具 Hype 4 Pro破解版 Hype 4 Pro下载

教你用python爬取『京东』商品数据,原来这么简单!

技术冰糖葫芦

API 接口

IntelliJ IDEA 2023:智能编码,让开发更高效!

Rose

ide 编程开发 IntelliJ IDEA 2023破解 IntelliJ IDEA 2023 IDEA 2023激活码

人工智能如何让测试更智能更高效?

霍格沃兹测试开发学社

SnailSVN Mac版:从 Finder 的上下文菜单中快速访问各种最常用的 SVN 功能

Rose

Mac软件 SVN客户端 SnailSVN Pro下载 Subversion(SVN)客户端

Yummy FTP Pro for mac中文直装版 最可靠的ftp文件传输工具

Rose

Mac软件 文件传输工具 ftp传输 Yummy FTP Pro 破解版 Yummy FTP Pro 下载

在 GraalVM 静态编译下无侵入实现可观测探索

阿里巴巴云原生

Java 阿里云 云原生

简单shell脚本的编写教程

百度搜索:蓝易云

云计算 Linux 运维 Shell 云服务器

想在Mac电脑上畅玩Windows游戏,那就试试CrossOver 24虚拟机吧!

Rose

CrossOver 24 CrossOver 24虚拟机 如何在Mac运行win 苹果电脑虚拟机软件

全智能深度演进,一键成片让视频创作颠覆式提效

阿里云CloudImagine

云计算 媒体 云剪辑

flowjo 10破解版图文教程 flowjo 10 mac专业的细胞分析工具

Rose

mac软件下载 流式细胞分析软件 FlowJo 10下载 FlowJo 10破解版

Puppeteer实践:复杂的问题简单化

南城FE

JavaScript 前端 nodejs puppeteer

源码解析丨一次慢SQL排查

GreatSQL

慢查询

keyshot2023怎么保存低版本(keyshot2023下载安装教程)

Rose

KeyShot2023pro安装包 keyshot2023下载

ICP Rust CDK| 在IC上开发、测试和部署DApps

TinTinLand

黑客 编程学习 ICP

抢先一步,获取最全测试开发岗求职攻略

霍格沃兹测试开发学社

AI力量:如何让测试更智能更高效

测试人

软件测试

从Twitter留言预测用户收入_大数据_张天雷_InfoQ精选文章