雅虎开源语义数据Web爬虫：Anthelion_语言 & 开发_孙镜涛_InfoQ精选文章

整个 Web 世界正在发生剧烈的转变，包含语义注解的 Web 页面让数据的提取和重用变得越来越容易，而为了提供更好的用户体验搜索引擎和社交媒体网站对这种数据的使用也越来越多。要获取这些数据离不开网络爬虫的支持，为此，Yahoo 创建了 Anthelion 项目，一个旨在爬取语义数据的 Nutch 插件，最近，该项目已在 GitHub 上开源。

Anthelion 是为了更好地爬取嵌在 HTML 页面中的结构化数据而设计的，它采用了一种全新的方法来爬取含有丰富数据的页面上的内容：将线上学习和 Bandit 探索方法有效地结合起来，根据页面上下文以及从之前页面提取到的元数据反馈预测 Web 页面的数据丰富程度。这种方法明显优于主题爬取（Focused Crawling）目前所采用的其他技术，极大地提升了爬取效率。

整个数据爬取的流程如下：

正如上面的流程图所展示的，为了执行主题爬取，该插件实现了三个扩展：

AnthelionScoringFilter（实现了 ScoringFilter 接口）：在线分类器，它对每一个外链打分，同时将新发现的外链分为相关的和不相关的两类。
WdcParser（实现了 Parser 接口）：解析 Web 页面内容并提取语义数据。该扩展基于 any23 类库实现，能够从 HTML 中提取 Microdata、Microformats 和 RDFa 注解。
TripleExtractor（实现了 IndexingFilter 接口）：将新域存储到索引中供之后的查询使用。

对于想亲身感受 Anthelion 的用户而言，直接从GitHub 上下载整个项目包或许是一个不错的选择，因为它包含了完整的Nutch 1.6 代码和相关插件，不需要任何修改和设置就能运行。如果只想下载插件，那么需要从文件的根目录下下载 nutch-anth.zip 并进行相关的设置。

在构建好项目之后，导航到\target 文件夹，执行 CCFakeCrawler 类的 main 函数就能启动爬虫，例如：

java -Xmx15G -cp ant.jar com.yahoo.research.robme.anthelion.simulation.CCFakeCrawler [indexfile] [networkfile] [labelfile] [propertiesfile] [resultlogfile]其中，indexfile 是 ID 和 URL 之间的映射文件，networkfile 是索引中 ID 的图，labelfile 是满足目标函数的 ID 列表，propertiesfile 是配置文件，resultlogfile 存储性能和爬取流程信息。

Anthelion 支持 init、start、stop 和 exit 操作，在爬取的过程中，用户还可以通过 status 命令查看爬取进程的状态。另外，对于 Anthelion 爬取数据的精确度 Yahoo 也进行了评测，结果如下：

感谢魏星对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作，请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博（ @InfoQ ， @丁晓昀），微信（微信号： InfoQChina ）关注我们，并与我们的编辑和其他读者朋友交流（欢迎加入 InfoQ 读者交流群（已满），InfoQ 读者交流群（#2））。

评论

发布

暂无评论

技术分享 | 常见接口协议解析

霍格沃兹测试开发学社

6步搭建一个飞机大战游戏

华为云开发者联盟

云计算软件开发华为云企业号十月PK榜

技术分享 | app自动化测试（Android）-- 参数化用例

霍格沃兹测试开发学社

秒验运营商SDK错误码

MobTech袤博科技

三方库移植之NAPI开发[1]—Hello OpenHarmony NAPI

技术分享 | app自动化测试（Android）-- Capability 使用进阶

霍格沃兹测试开发学社

如何在 SAP BTP Java 应用里使用 SQLite 数据库

云原生云平台 SAP 10月月更 btp

还在为如何编写Web自动化测试用例而烦恼嘛？资深测试工程师手把手教你Selenium 测试用例编写

霍格沃兹测试开发学社

一个值得深思的话题：Wi-Fi 7的诞生会不会取代 5G 网络？

5G 无线技术 10月月更 WiFi7

干货 | 接口自动化测试分层设计与实践总结

霍格沃兹测试开发学社

VUE 初学者基础知识

默默的成长

Vue 前端 10月月更

技术分享 | 接口测试价值与体系

霍格沃兹测试开发学社

十问分布式数据库：技术趋势、选型及标准思考

OceanBase 数据库

十大 CI/CD 安全风险（三）

DevOps CI/CD DevSecOps 软件供应链安全

技术分享 | app自动化测试（Android）--显式等待机制

霍格沃兹测试开发学社

干货 | 测试专家（前阿里P8）聊测试职业发展常见瓶颈

霍格沃兹测试开发学社

技术分享 | 接口测试常用代理工具

霍格沃兹测试开发学社

使用 Zpan 搭建低成本个人私有网盘，还不限速

华为云开发者联盟

云计算华为云网盘企业号十月 PK 榜

笔记本电脑内卷之争：华硕4+4无忧保脱颖而出

Java基础（三）| switch、循环及Random详解

Java random Switch 循环 10月月更

测试人生 | 疫情之下工资翻了2倍多，这4个月学习比工作8年学到的还多

霍格沃兹测试开发学社

技术分享 | 使用 cURL 发送请求

霍格沃兹测试开发学社

记录第二天-Vue起步

默默的成长

前端 Vue 3 10月月更

Wave-2 802.11ac SoC for Routers, Gateways and Access Points//IPQ4019,IPQ4029,Wallys

IPQ4019 ipq4029

技术分享 | app自动化测试（Android）-- 特殊控件 Toast 识别

霍格沃兹测试开发学社

技术分享 | app自动化测试（Android）-- 属性获取与断言

霍格沃兹测试开发学社

技术分享 | 抓包分析 TCP 协议

霍格沃兹测试开发学社

技术分享 | 使用postman发送请求

霍格沃兹测试开发学社

Jchardet——支持检测并输出文件编码方式的组件

OpenHarmony开发者

StampedLock：一个并发编程中非常重要的票据锁

华为云开发者联盟

高并发开发华为云企业号十月PK榜

2022Q3消费级AR眼镜市场季度分析：国产品牌纷纷发力，市场全面启航

科技 AR眼镜季度报告