GTLC全球技术领导力峰会·上海站,首批讲师正式上线! 了解详情
写点什么

最佳 NLP 工具、库和服务推荐

2020 年 2 月 17 日

最佳NLP工具、库和服务推荐

在现代文本数据分析中,NLP 工具和 NLP 库是必不可少的。研究人员和企业使用自然语言处理工具从文本数据分析中提取信息。这种分析包括分析客户反馈、自动化支持系统、改进搜索和推荐算法,以及监控社交媒体。


现在,市面上有很多 NLP 工具和服务可用,了解它们的特性是获得良好结果的关键。虽然有些工具非常适合小型项目,但也有些工具更适合从事大数据工作的专家,这完全取决于项目本身。


为帮助大家为自己的项目找到完美的解决方案,我们整理汇编了一份最佳 NLP 工具、库和服务的列表。在本文中,你将可以找到免费的开源库、众包解决方案和专门的注释公司。


免费 NLP 工具

  • NTLK:Natural Language Toolkit 是一个用于构建 Python 程序以处理人类语言数据的平台。它包括词法分析、命名实体识别、标记化、词性标注、句法分析和语义推理。它还提供了一些很好的入门资源。但是,由于 NLTK 在处理大数据时会占用大量资源,因此推荐用于简单项目。

  • PyTorch-Transformers:该 NLP 库包含了 NLP 的预训练模型。它具有 PyTorch 实现、预训练的模型权重、使用脚本和转换工具,包括 BERT、GPT-2、Transformer-XL 和 RoBERTa。

  • TextBlob:TextBlob 构建在 NLTK 的基础上,就像是一个扩展,简化了 NLTK 的许多功能,它为任务提供了一个易于理解的界面,包括情感分析、词性标注和名词短语提取等。TextBlob 是一个推荐给初学者的自然语言处理工具,它也具有可扩展性。

  • SpaCy:SpaCy 是一个流畅、快速、高效的开源库,由 Cython 编写。它具有一个简单的 API、预训练的词向量、11 种语言的 23 个统计模型、用于语法和 NER 的内置可视化工具,它的更新时间表也非常一致。

  • Stanford CoreNLP:CoreNLP 用于对文本片段进行语言分析。它提供了 7 种语言的支持,可扩展性使其成为一个很好的自然语言处理工具,可用于信息抓取、聊天机器人训练以及文本处理和生成。需要说明的是,它是按照 GNU 通用公共许可证 V3 许可的,因此在构建任何专用软件时,都需要商业许可证。

  • Apache OpenNLP:这个由 Java 编写的 NLP 库以其简单性而备受推崇。它包括标记化、句子分割、词性标注、分块、解析和基于感知器的机器学习。然而,Apache 是一个由志愿者开发的项目,因此更新计划是不稳定的。

  • AllenNLP:Allen NLP 是一个基于 PyTorch 构建的 Apache 2.0 研究库,是为那些想要快速简单地建立语言分析模型的研究人员提供的。AllenNLP 具有广泛的文本分析选项,它是一个简单的 NLP 工具,也是可扩展的。

  • GenSim:GenSim 是一个用于自然语言处理的免费 Python 库,是主题建模和文档相似性比较的推荐选项。此外,它还提供了可扩展的统计语义和语义结构分析。GenSim 具有高水平的处理速度和处理大量文本的能力。

  • NLP Architect:NLP Architect 由 Intel AI Lab 开发,是一个开源 Python 库,用于优化 NLP 和探索深度学习拓扑。它旨在使训练和运行模型成为一个简单的过程。


对于业余爱好者、数据研究人员以及有时间在内部执行注释任务的团队来说,上述选项非常适合。但是,如果你的项目时间表比较紧迫且有大数据要处理,那么寻求合格的 NLP 服务的帮助可能会更简单、更高效。


下面我们整理汇总了四个 NLP 服务列表,以帮助你满足数据分析的需求。


在这些 NLP 服务中,你可以找到可定制的时间表、项目管理帮助、访问专业注释器以及质量保证。


NLP 服务

  • Lionbridge:作为训练数据和数据注释的领先提供商,Lionbridge 拥有 500000 名众包专业人员,能够使用 300 多种语言进行工作。他们的定制注释平台使得针对各种用例的数据分析变得容易,并且可以轻松满足特殊的项目需求。Lionbridge 是快速、大规模进行高质量数据注释的理想选择。

  • Amazon Mechanical Turk:AMT 集群是一种廉价、可扩展的 NLP 解决方案,用于数据收集和数据标记。由于它们并不提供项目管理、质量保证或定制发票,因此对于那些不需要这些因素的项目来说,AMT 是一个很好的服务。

  • Figure Eight:Figure Eight 现在是 Appen 的子公司,提供了一个机器学习辅助的数据标注平台,能够处理各种 NLP 服务。Figure Eight 很适合创建独特的项目本体。

  • Scale:Scale 提供 NLP 数据注释服务,包括实体注释、OCR 转录、文本分类和情感分析。通过将人工和机器学习的注释实践相结合,它们的分类和内容审核服务是可扩展的。


还是不能确定如何实现文本数据分析解决方案吗?Lionbridge 可以帮助你定义项目目标,然后根据你的特定需求构建和注释定制的数据集。


作者介绍:


Hengtee Lim,是供职于 Lionbridge 营销团队的作家。他是澳大利亚人,现居日本东京。


本文最初发表在 LionBridge 官网,经原作者 Hengtee Lim 授权,InfoQ 中文站翻译并分享。


原文链接:


https://lionbridge.ai/articles/best-nlp-tools-libraries-and-services/


2020 年 2 月 17 日 09:001525
用户头像
赵钰莹 InfoQ高级编辑

发布了 693 篇内容, 共 406.4 次阅读, 收获喜欢 2265 次。

关注

评论

发布
暂无评论
发现更多内容

与第三方系统打通的N种进阶方式

棒锤🐮

架构

重拳出击!平台经济反垄断,互联网巨头市值蒸发千亿

CECBC区块链专委会

小额贷款 反垄断

搞微服务用阿里开源的 Nacos 真香啊!

云流

阿里巴巴 编程 开源项目

面试官问我redis数据类型,我回答了8种

云流

数据库 学习 java面试

高交会现场:众多区块链项目亮相,“家谱链”惊艳全场

WX13823153201

对比一下,你的简历是不是也写成了这样,能拿高薪才怪了

小Q

Java 学习 架构 面试 简历

架构训练营-week8-数据结构与算法,网络,IO

于成龙

极客大学架构师训练营 架构训练营

科技助力餐饮,普渡送餐机器人在餐博会上被众人围观!

DT极客

当Nginx遇上Tomcat集群,又是一场负载均衡的爱恨情仇

小Q

nginx tomcat 学习 架构 面试

浅谈程序员的“内卷化”

数据社

阿里首发MySQL“完美日记”,基础+优化+事务+集群+锁+主从复制+安全备份

Java架构追梦

Java MySQL 数据库 架构 面试

当Tomcat遇上Netty,我这一系列神操作,同事看了拍手叫绝

小Q

Java 学习 程序员 架构 面试

第八周作业

Geek_4c1353

极客大学架构师训练营

【涂鸦物联网足迹】涂鸦云平台接口列表—万能红外遥控器

IoT云工坊

人工智能 云计算 物联网 API 红外遥控器

我终于拥有自己的独立博客了。

彭宏豪95

GitHub 写作 博客 IT

年末十家手机银行数字化升级大盘点:谁家开发更全面?谁家建设更到位?

CECBC区块链专委会

疫情 银行 手机银行

iptables 端口转发

田振宇

SpringBoot启动原理

云流

编程门槛 框架设计 spring Boot Starter】

Java批量导入去除重复数据并返回结果,我差点就被放倒了

小Q

Java 学习 程序员 架构

腾讯云直播全解析,双11怎么买才不亏?

腾讯云视频云

腾讯云 阿里云 云直播 直播 视频

《我想进大厂》之Java基础夺命连环16问

艾小仙

Java 面试 编程语言 面试技巧

第七周作业

Geek_4c1353

极客大学架构师训练营

践行新基建,共建城市智能体,为数字经济发展提供新动能

CECBC区块链专委会

云计算 大数据

11.11 程序员的 1111 种死法

京东科技开发者

程序员 程序人生

终于,阿里P9耐不住寂寞,以多年经验总结了地表最强SQL宝典

周老师

Java 编程 程序员 架构 面试

实时音视频面视必备:快速掌握11个视频技术相关的基础概念

JackJiang

即时通讯 视频 实时音视频

CloudQuery v1.2.1 版本发布

CloudQuery社区

数据库 开发者 运维 工具 开发工具

从应用开发角度认识K8S

LorraineLiu

云原生 容器技术 k8s入门

奈学教育荣获“中关村高新技术企业”认证

奈学教育

奈学教育

奈学教育荣获“中关村高新技术企业”认证

古月木易

教育 IT

「架构师训练营」第 4 周作业

小黄鱼

极客大学架构师训练营

DNSPod与开源应用专场

DNSPod与开源应用专场

最佳NLP工具、库和服务推荐-InfoQ