限时领|《AI 百问百答》专栏课+实体书(包邮)! 了解详情
写点什么

Twitter 情感分析技术

  • 2015-12-21
  • 本文字数:2295 字

    阅读完需:约 8 分钟

情感分析是自然语言处理(NLP)、文本分析和计算语言学中的一个挑战性问题。一般意义上,情感分析主要是分析用户对于各种对象或问题的意见。它最初是利用长文本(如信件、电子邮件等)来进行分析。随着互联网的发展,像 microbloging 网站、论坛和社交网络等互联网应用爆发式增长,情感分析也越来越受到重视。用户使用这些应用进行的各种交互行为(分享、评论、推荐、交友等)产生了大量的数据,被称为用户产生内容,这些数据蕴含着大量的信息,反映了用户的内在行为规律。庞大的数据量要求使用自动化技术来进行挖掘和分析。目前,利用微博数据进行情感分析是一项挑战性的工作,已有的工作主要采用了词法分析方法和机器学习方法,以及两种方法的融合。

背景

根据分析的载体不同,情感分析涉及到很多的主题,包括针对电影评论、商品评论,以及新闻和博客等的情感分析。在本文中,主要介绍针对 Twitter 内容的情感分析方法。对情感分析的研究到目前为止主要集中在两个方面:识别给定的文本实体是主观的还是客观的,以及识别主观的文本的极性。大多数情感分析研究都使用机器学习方法。

在情感分析领域,文本可以划分为积极的或消极的类,或者多种类别,即积极、消极和中性(或不相关)。针对 Twitter 内容的情感分析技术可以分为:

  • 词法分析
  • 基于机器学习的分析
  • 混合分析

词法分析

这种技术主要使用了一个由预标记词汇组成的字典。输入文本通过词法分析器被转换为一个个单词。将每一个新的单词与字典中的词汇进行匹配。如果有一个积极的匹配,分数加到输入文本的分数总池中。例如,如果“戏剧性”在字典中是一个积极的匹配,然后文本的总分数会递增。相反,如果有一个消极的匹配,输入文本的总分数会减少。虽然这项技术本质上感觉有些业余,但已被证明是有价值的。词法分析技术的工作方式如下图。

文本的分类取决于文本的总得分。目前有大量的工作致力于度量词法信息的有效性。对单个短语,通过手动标记词汇(仅仅包含形容词)的方式,大概能达到 80%的准确率,这是由评价文本的主观性所决定的。有研究者将同样的方法用于电影评论的数据中,准确率仅仅为 62%。除了手动标记词汇的方法,还有研究者利用互联网搜索引擎标记词汇的极性。他们使用两个 AltaVista 搜索引擎进行查询:目标词汇 +“good”和目标词汇 +“bad”,最后的得分根据搜索的结果的数量进行统计,准确率从 62% 提高到了 65%。后来还有研究者使用了 WordNet 数据库,他们通过在 WordNet pyramid 中计算目标词汇与“good”和“bad”之间的最小路径距离(Minimum Path Distance,MPD),并将 MPD 转换为分数值,存储在词汇字典中,这种方法的准确率可以达到 64%。还有研究者通过简单地从消极词汇集合中去除积极词汇,来评价语义差距,得到了 82%的准确度。词法分析也存在一个不足:其性能(时间复杂度和准确率)会随着字典大小(词汇的数量)的增加迅速下降。

基于机器学习的分析

机器学习技术由于其高的适应性和准确性受到了越来越多的关注。在情感分析中,主要使用的是监督学习方法。它可以分为三个阶段:数据收集、预处理、训练分类。在训练过程中,需要提供一个标记语料库作为训练数据。分类器使用一系列特征向量对目标数据进行分类。在机器学习技术中,决定分类器准确率的关键是合适的特征选择。通常来说,unigram(单个短语),bigrams(两个连续的短语),trigrams(三个连续的短语)都可以被选为特征向量。当然还有其他的一些特征,如积极词汇的数量,消极词汇的数量,文档的长度,支持向量机(SVM),和朴素贝叶斯(NB)算法等。取决于所选择的各种特征的组合,精度可以达到从 63%至 80%。下图是基于机器学习的分析所涉及到的主要步骤:

同时,机器学习技术也面临很多挑战:分类器的设计、训练的数据的获取、对一些未见过的短语的正确解释。相比词法分析方法,它在字典大小呈指数倍增长的时候依然工作得很好。

混合分析

情感分析研究的进步吸引大量研究者开始探讨将两种方法进行组合的可能性,既可以利用机器学习方法的高准确性,又可以利用词法分析方法的快速特点。有研究者利用由两个词组成的词汇和一个未标记的数据,将这些由两个词组成的词汇划分为积极的和消极的类。利用被选择的词汇集合中的所有单词产生一些伪文件。然后计算伪文件与未标记文件之间的余弦相似度。根据相似性量度,该文件被划分为积极的或消极的情感。这些训练数据集然后被送入朴素贝叶斯分类器进行训练。

有研究者使用背景词法信息作为单词类关联,提出了一种统一的框架,设计了一个 Polling 多项式分类器(PMC)(也称为多项式朴素贝叶斯),在训练中融入了手动标记数据。他们声称利用词法知识后性能得到了提高。

比较

在文献 [ 1 ] 中,研究者在电影评论及推荐、新闻评论领域相关的用户微博数据上进行测试,通过对所有的方法进行比较表明机器学习方法可以得到最好的结果,最差的是词法分析方法。但是,如果没有找到合适的分类器,机器学习方法可能会导致非常糟糕的结果。

出于分类器的训练目的,用户可以使用公开可用的数据集,包括:Cornel 电影评论集,通用询价形容词列表,雅虎网络搜索 API,WordNet Java API,WEKA M.L. Java API(仅适用于机器学习目的),SVM-light ML(M.L. 分类器)等。

文献 1

[ 1 ] R. Prabowo and M. Thelwall. Sentiment analysis: A combined approach. Journal of In-formatics (2009) 143-157


感谢杜小芳对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入 InfoQ 读者交流群(已满),InfoQ 读者交流群(#2))。

2015-12-21 18:005352
用户头像

发布了 268 篇内容, 共 131.7 次阅读, 收获喜欢 24 次。

关注

评论 1 条评论

发布
用户头像
大佬,情感分析目前业界有没有比较成熟的做法
2022-02-23 08:21
回复
没有更多了
发现更多内容

健康管理行业使用堡垒机场景简单了解

行云管家

网络安全 信息安全 数据安全 健康管理

如何显示CAD图纸详细信息

极客天地

YashanDB|使用 select * 创建物化视图无法触发查询重写?问题出在这儿!

数据库砖家

数据库·

VMware Cloud Director Availability 4.7 - 灾难恢复和迁移 (DRaaS 解决方案)

sysin

vmware

防火墙事件日志及日志分析

运维有小邓

日志管理工具 IT运维服务

PWA与小程序:技术架构、生态对比及全球化部署策略分析

xuyinyin

CAD图纸在天正中显示不全怎么办

极客天地

CAD命令行拖出来以后如何还原

极客天地

CST表面等离极化激元SPP --- IMI有效折射率,截断边界模, 缝隙波导

思茂信息

cst电磁仿真 CST软件 CST Studio Suite

日志易×DeepSeek:重新定义智能日志分析的「智」能边界

日志易

#日志易 #DeepSeek #智能日志中心

如何灵活处理参数值?Apipost自定义函数功能让调试更简单高效!

数据追梦人

四川气象数据智能体示范应用入围中国信通院“开源大模型+”典型案例

ModelWhale

人工智能 大数据 大模型 中国信通院

阿里云 AI 搜索开放平台:RAG智能化工作流助力 AI 搜索

阿里云大数据AI技术

人工智能 阿里云 rag AI搜索 QwQ

用 AI 革新软件测试

俞凡

人工智能 软件测试

金仓数据库 2025 征文大赛火热启动!丰富豪礼 + 技术曝光,等你来战!

金仓技术

征文活动 金仓数据库

淘宝天猫商品数据爬取全攻略:官方API与非官方接口双管齐下

代码忍者

淘宝API接口

做好批次与保质期管理,告别库存混乱与货物过期痛点!

积木链小链

数字化转型 智能制造 批次管理

珠海等保测评公司名称以及地址看这里!

行云管家

等保 等保评测

瞧瞧别人家的日期处理,那叫一个优雅!

不在线第一只蜗牛

Java

企业内部用IM软件:安全高效的企业内部沟通工具

BeeWorks

即时通讯 IM 私有化部署 企业级应用

阿里云 AI 搜索开放平台新功能发布:新增GTE自部署模型

阿里云大数据AI技术

大模型 AI搜索 GTE

Tailwind CSS一些你需要记住的原子类

电子尖叫食人鱼

CSS 前端

企业im有哪些? 哪款更适合你的即时通讯需求?

BeeWorks

即时通讯 IM 私有化部署 企业级应用

基于 Flink 的中国电信星海时空数据多引擎实时改造

Apache Flink

大数据 flink 实时计算

开发者必备的这些API协议,Apipost都支持!

数据追梦人

Java程序使用预处理语句的性能提升

秃头小帅oi

Python 实战:用 API 接口批量抓取小红书笔记评论,解锁数据采集新姿势

tbapi

小红书笔记接口 小红书API 小红书笔记评论采集 小红书笔记内容采集

加密货币在去中心化云算力生态中扮演什么角色?

PowerVerse

加密货币 Token 去中心化云算力

英特尔为酷睿 Ultra 200S-K 处理器发布 Boost 超频配置文件, 游戏性能提升 7%

E科讯

豆瓣均分8.5+,想提升效能水平的技术领导都在读(部分可下载!)

思码逸研发效能

团队管理 个人成长 读书 研发效能 思码逸

龙蜥专家走进中国农业大学 分享如何驱动生命科学高效计算

OpenAnolis小助手

操作系统 龙蜥社区 浪潮信息 龙蜥高校行

Twitter情感分析技术_语言 & 开发_张天雷_InfoQ精选文章