在搜索 SEO 时,有一件事让人倍感惊讶。当用户输入一个搜索词,得到的结果不是来自整个网络,而是来自 Google 对整个网络的收集代理。对于一个需要被纳入检索目录的页面来说,Google 必须对它进行句法上的分析,并把页面的内容存储到自己的数据库里。
为了做到这点,那些被称之为网络蜘蛛和爬虫的自动机器人,就会扫描整个互联网,寻找哪些链接指向了它们已经索引过的页面。这些爬虫会从一个页面开始,追踪找到的链接,扫描并索引这些页面。
这个模式会一直重复,直到搜索引擎索引了相当规模的网络样本。它会把每一个页面上收集到的元信息和文本存储在自己的数据库里,它们正是用这些数据,来生成给用户展示的搜索引擎页面排名。
你拥有一个线上网站,并不能保证 Google 就会找到它,并把所有页面纳入到排名中。它必须或者通过导入链接和导出链接,以及网站自己的地图找到所有页面,或者手动提交给 Google。Eventbrite 依靠所有这些策略的混合,来确保页面被纳入到 Google 的网络索引里。
导入链接
导入链接是那些来自其他域的指向你的网站的链接。Google 的爬虫来到一个页面,它们会迅速地从句法上分析它的内容,包括所有没有特别明示要搜索引擎忽视它们的链接。如果 A 网站包含了一个指向 B 网站的链接,Google 在做完 A 网站的句法分析后,就会跟随链接去 B 网站。有越多的外部网站链接了你的网站,Google 就越有可能索引到你的页面。
导入链接还在提升网站相关度和权威性方面扮演了重要角色。Google 的主要目标是把每个网络页面当成一个用户的世界。因此他们认为拥有大量导出链接的页面是受欢迎的,并且会在相关搜索结果中提高该页面的排名。但这些链接必须是自然出现的,因为如果 Google 发现页面的大部分导入链接都来自低权威性或不相关的页面,就会降低这个页面的排名,或者从他们的索引中整个去除这些页面。
Sausalito 艺术节网站链接到了 Eventbrite
链接到这次活动页面的网站,一般会包括被 Google 索引了的组织者个人的网站。举办活动的时候,Eventbrite 还会依靠媒体的发布,新闻文章和博客文章链接到活动页面。积累的外部资源越多,活动页面的权威指数越高。这将会提升 Eventbrite 的所有页面,因为 Google 会认为这个网站值得信任,并且因为链接到该网站的页面那么多,所以它很受欢迎。
导出链接
Google 进入一个 Eventbrite 页面的时候,Eventbrite 会用内部的链接引导爬虫到其他希望被 Google 索引到的页面中去。Eventbrite 会利用最受欢迎的页面,指向其他希望用户和 Google 都能找到的内部页面中去。Eventbrite 的主页是一个受用户欢迎的接入点,Google 会将任何主页上找到的内部链接视为重点分析句法和索引的页面。Eventbrite 也会将受欢迎的活动和链接纳入到自己的分类检索页面,以此受益。
Eventbrite 还会将一些精心策划的链接放在网站页脚中,让它们在每一个页面显示,这就给了 Google 一个良好的暗示,证明这些链接也是重要的。网站页脚中的一些链接是动态的,并且取决于网站顶级域(TLD)的访问。一个访问 Eventbrite.com 的用户会看到页脚中链接的是美国城市,而访问 Eventbrite.com.au 的用户则会在页脚中看到链接的是澳大利亚城市。
(点击放大图像)
Eventbrite 页脚 -US TLD
(点击放大图像)
Eventbrite 页脚 -Australia TLD
Eventbrite 还会在公共活动页面使用面包屑技术,从而连接城市和类别目录页。它不仅为 Google 找到这些页面提供了新的途径,还让用户能快速地从现在访问的活动页面跳转到其他类似的活动。
Eventbrite 活动页面的面包屑导航
网站地图
网站地图是一个或多个文件,它能为搜索引擎提供导航功能,找到一个网站的所有页面。它并不会代替链接,而是帮助爬虫寻找那些可能因独立或者缺乏相互关联而错过的页面。网站地图还能传达每一个 URL 中有用的元数据,包括它最后被修改的时间和一个页面改动的频次。你看到的网站地图可能主要是 XML 的文件格式,但 Google 也接受纯文本和 RSS 的格式。
对大型网站来说,最好拆分网站地图,因为 Google 有限制最多 50,000 个 URL 和 10MB 的未压缩文件体积。可以把这些 URL 放在小一些的网站地图中,让它们组成一个网站地图索引文件。Eventbrite 就采取了这种做法,因为它拥有超过一千万个页面,并且数量还在增长中。
Eventbrite 主要的网站地图索引包含了活动页面、目录页面、地点描述页面和组织者页面的网站地图链接。每一个网站地图都有各自优先的信息。这就给 Google 提供了需要多频繁地回来索引新页面的迹象。
(点击放大图像)
Eventbrite 网站地图索引的一个片段
要记住,把一个链接纳入到网站地图并不能保证 Google 的爬虫就会来索引并给它做句法分析。网站地图只是为搜索引擎提供索引建议,它不能替代相互链接的作用。
手动提交
对新网站来说,指望 Google 的爬虫通过导出链接找到他们是页面,这是不现实的。Google 允许你通过它的网站管理工具 Search Console 手动提交单个页面或者网站地图。再强调一次,Google 是否去抓取并索引这些页面,都是 Google 自主的决定。你也还是可以通过 Google 这个网站管理工具提交新的页面。
Google 的爬行预算
Google 对每一个网站都设置了抓取页面的限制,也叫预算。和每个网站的页面排名紧密相连,它们各自有不同的爬行预算。这就意味着,Google 越是认为你的网站相关性高且重要,它每次访问时就会花费越多预算去抓取和索引这些页面。
Google 用来设置一个网站爬行预算的决定因素,包括网站的权威性分数,网站的更新频率如何,新页面的添加频率,还有单个页面的访问速度和大小。为了提高页面数量,Google 每次访问的时候都会做索引,你要确保减少无效链接的数量,因为它们只是浪费时间,而爬虫将没有更多可追踪的链接。你还要确保网站没有重定向循环链接。重定向循环就是 A 网站重定向至 B 网站,然后又重定向回 A 网站。爬虫本应可以索引你网站的其他页面,却被困在循环里。
你还可以利用 Robot.txt 文件,来弄清楚哪些页面是不够重要的,或者品质较低的,然后添加一条规则,不允许爬虫追踪和索引这些页面或目录。Eventbrite 拥有超过一千万页面,但仅有 150 万个页面被收录到 Google 的索引中。Eventbrite 会紧密关注那些低品质内容的页面、垃圾页面和过期页面等,限制 Google 索引这些页面。它还会将自认为重要的链接放在接近主页的地方,或者使它们容易通过全球导航找到。一套仔细斟酌过的等级制度,是确保网站优先页面被频繁地索引和再索引的关键。
总结
互联网中有超过 4 亿网络页面,Google 需要一个帮手来找出新的网站和页面。Google 索引的网络页面数量,一个估测的数值是 10%。记住这件事非常重要:当用户在 Google 输入一个搜索词,得到的结果不是来自整个网络,而是来自 Google 的收集代理。返回的结果是那些 Google 已经找到并存储在它庞大数据库中的东西。
在改善 Google 对你的网站做句法分析和索引这件事上,你不该完全依赖单一种策略。一个清晰的、仔细斟酌过的网站等级制度,加上所有页面至少有一次内部连接,这些非常重要。为了让 Google 找到你的页面,网站地图是个很棒的起始点,对高优先级的新页面来说,手动提交很重要。
随着你网站的发展并收获更多导入链接,Google 会优先考虑索引新的页面,因为它希望最具相关性和受欢迎的页面出现在搜索结果中。把那些会将用户引入你网站的内容纳入进来,也会提高你在搜索引擎中出现的几率。Eventbrite 信奉的座右铭是:有利于 SEO 的,必定也是有利于用户体验的。
作者介绍:Beck Cronin-Dixon 是在线活动策划服务平台 Eventbrite 的软件工程师,目前专门研究 SEO。她还有交互式 Web 开发、Python、Django、JavaScript、Angular 和 React 方面的经验。
查看英文原文: Eventbrite and SEO: How does Google find our pages?
感谢陈兴璐对本文的审校。
给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ , @丁晓昀),微信(微信号: InfoQChina )关注我们。
评论