写点什么

Eventbrite 和 SEO:Google 是如何找到一个页面的?

  • 2016-08-02
  • 本文字数:3188 字

    阅读完需:约 10 分钟

在搜索 SEO 时,有一件事让人倍感惊讶。当用户输入一个搜索词,得到的结果不是来自整个网络,而是来自 Google 对整个网络的收集代理。对于一个需要被纳入检索目录的页面来说,Google 必须对它进行句法上的分析,并把页面的内容存储到自己的数据库里。

为了做到这点,那些被称之为网络蜘蛛和爬虫的自动机器人,就会扫描整个互联网,寻找哪些链接指向了它们已经索引过的页面。这些爬虫会从一个页面开始,追踪找到的链接,扫描并索引这些页面。

这个模式会一直重复,直到搜索引擎索引了相当规模的网络样本。它会把每一个页面上收集到的元信息和文本存储在自己的数据库里,它们正是用这些数据,来生成给用户展示的搜索引擎页面排名。

你拥有一个线上网站,并不能保证 Google 就会找到它,并把所有页面纳入到排名中。它必须或者通过导入链接和导出链接,以及网站自己的地图找到所有页面,或者手动提交给 Google。Eventbrite 依靠所有这些策略的混合,来确保页面被纳入到 Google 的网络索引里。

导入链接

导入链接是那些来自其他域的指向你的网站的链接。Google 的爬虫来到一个页面,它们会迅速地从句法上分析它的内容,包括所有没有特别明示要搜索引擎忽视它们的链接。如果 A 网站包含了一个指向 B 网站的链接,Google 在做完 A 网站的句法分析后,就会跟随链接去 B 网站。有越多的外部网站链接了你的网站,Google 就越有可能索引到你的页面。

导入链接还在提升网站相关度和权威性方面扮演了重要角色。Google 的主要目标是把每个网络页面当成一个用户的世界。因此他们认为拥有大量导出链接的页面是受欢迎的,并且会在相关搜索结果中提高该页面的排名。但这些链接必须是自然出现的,因为如果 Google 发现页面的大部分导入链接都来自低权威性或不相关的页面,就会降低这个页面的排名,或者从他们的索引中整个去除这些页面。

Sausalito 艺术节网站链接到了 Eventbrite

链接到这次活动页面的网站,一般会包括被 Google 索引了的组织者个人的网站。举办活动的时候,Eventbrite 还会依靠媒体的发布,新闻文章和博客文章链接到活动页面。积累的外部资源越多,活动页面的权威指数越高。这将会提升 Eventbrite 的所有页面,因为 Google 会认为这个网站值得信任,并且因为链接到该网站的页面那么多,所以它很受欢迎。

导出链接

Google 进入一个 Eventbrite 页面的时候,Eventbrite 会用内部的链接引导爬虫到其他希望被 Google 索引到的页面中去。Eventbrite 会利用最受欢迎的页面,指向其他希望用户和 Google 都能找到的内部页面中去。Eventbrite 的主页是一个受用户欢迎的接入点,Google 会将任何主页上找到的内部链接视为重点分析句法和索引的页面。Eventbrite 也会将受欢迎的活动和链接纳入到自己的分类检索页面,以此受益。

Eventbrite 还会将一些精心策划的链接放在网站页脚中,让它们在每一个页面显示,这就给了 Google 一个良好的暗示,证明这些链接也是重要的。网站页脚中的一些链接是动态的,并且取决于网站顶级域(TLD)的访问。一个访问 Eventbrite.com 的用户会看到页脚中链接的是美国城市,而访问 Eventbrite.com.au 的用户则会在页脚中看到链接的是澳大利亚城市。

(点击放大图像)

Eventbrite 页脚 -US TLD

(点击放大图像)

Eventbrite 页脚 -Australia TLD

Eventbrite 还会在公共活动页面使用面包屑技术,从而连接城市和类别目录页。它不仅为 Google 找到这些页面提供了新的途径,还让用户能快速地从现在访问的活动页面跳转到其他类似的活动。

Eventbrite 活动页面的面包屑导航

网站地图

网站地图是一个或多个文件,它能为搜索引擎提供导航功能,找到一个网站的所有页面。它并不会代替链接,而是帮助爬虫寻找那些可能因独立或者缺乏相互关联而错过的页面。网站地图还能传达每一个 URL 中有用的元数据,包括它最后被修改的时间和一个页面改动的频次。你看到的网站地图可能主要是 XML 的文件格式,但 Google 也接受纯文本和 RSS 的格式。

对大型网站来说,最好拆分网站地图,因为 Google 有限制最多 50,000 个 URL 和 10MB 的未压缩文件体积。可以把这些 URL 放在小一些的网站地图中,让它们组成一个网站地图索引文件。Eventbrite 就采取了这种做法,因为它拥有超过一千万个页面,并且数量还在增长中。

Eventbrite 主要的网站地图索引包含了活动页面、目录页面、地点描述页面和组织者页面的网站地图链接。每一个网站地图都有各自优先的信息。这就给 Google 提供了需要多频繁地回来索引新页面的迹象。

(点击放大图像)

Eventbrite 网站地图索引的一个片段

要记住,把一个链接纳入到网站地图并不能保证 Google 的爬虫就会来索引并给它做句法分析。网站地图只是为搜索引擎提供索引建议,它不能替代相互链接的作用。

手动提交

对新网站来说,指望 Google 的爬虫通过导出链接找到他们是页面,这是不现实的。Google 允许你通过它的网站管理工具 Search Console 手动提交单个页面或者网站地图。再强调一次,Google 是否去抓取并索引这些页面,都是 Google 自主的决定。你也还是可以通过 Google 这个网站管理工具提交新的页面。

Google 的爬行预算

Google 对每一个网站都设置了抓取页面的限制,也叫预算。和每个网站的页面排名紧密相连,它们各自有不同的爬行预算。这就意味着,Google 越是认为你的网站相关性高且重要,它每次访问时就会花费越多预算去抓取和索引这些页面。

Google 用来设置一个网站爬行预算的决定因素,包括网站的权威性分数,网站的更新频率如何,新页面的添加频率,还有单个页面的访问速度和大小。为了提高页面数量,Google 每次访问的时候都会做索引,你要确保减少无效链接的数量,因为它们只是浪费时间,而爬虫将没有更多可追踪的链接。你还要确保网站没有重定向循环链接。重定向循环就是 A 网站重定向至 B 网站,然后又重定向回 A 网站。爬虫本应可以索引你网站的其他页面,却被困在循环里。

你还可以利用 Robot.txt 文件,来弄清楚哪些页面是不够重要的,或者品质较低的,然后添加一条规则,不允许爬虫追踪和索引这些页面或目录。Eventbrite 拥有超过一千万页面,但仅有 150 万个页面被收录到 Google 的索引中。Eventbrite 会紧密关注那些低品质内容的页面、垃圾页面和过期页面等,限制 Google 索引这些页面。它还会将自认为重要的链接放在接近主页的地方,或者使它们容易通过全球导航找到。一套仔细斟酌过的等级制度,是确保网站优先页面被频繁地索引和再索引的关键。

总结

互联网中有超过 4 亿网络页面,Google 需要一个帮手来找出新的网站和页面。Google 索引的网络页面数量,一个估测的数值是 10%。记住这件事非常重要:当用户在 Google 输入一个搜索词,得到的结果不是来自整个网络,而是来自 Google 的收集代理。返回的结果是那些 Google 已经找到并存储在它庞大数据库中的东西。

在改善 Google 对你的网站做句法分析和索引这件事上,你不该完全依赖单一种策略。一个清晰的、仔细斟酌过的网站等级制度,加上所有页面至少有一次内部连接,这些非常重要。为了让 Google 找到你的页面,网站地图是个很棒的起始点,对高优先级的新页面来说,手动提交很重要。

随着你网站的发展并收获更多导入链接,Google 会优先考虑索引新的页面,因为它希望最具相关性和受欢迎的页面出现在搜索结果中。把那些会将用户引入你网站的内容纳入进来,也会提高你在搜索引擎中出现的几率。Eventbrite 信奉的座右铭是:有利于 SEO 的,必定也是有利于用户体验的。

作者介绍:Beck Cronin-Dixon 是在线活动策划服务平台 Eventbrite 的软件工程师,目前专门研究 SEO。她还有交互式 Web 开发、Python、Django、JavaScript、Angular 和 React 方面的经验。

查看英文原文 Eventbrite and SEO: How does Google find our pages?


感谢陈兴璐对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2016-08-02 18:052200

评论

发布
暂无评论
发现更多内容

为什么ElasticSearch比MySQL更适合全文索引

程序员历小冰

数据库 lucene elasticsearch BitMap 跳表

滴普技术荟-云原生基座OpenKube开放容器实践(五):linux配置跨主机容器通信

吉利汽车宣布进军区块链 多个龙头股企业早已低调精准布局区块链

CECBC

区块链

Hive底层原理:explain执行计划详解

五分钟学大数据

大数据 hive 二月春节不断更

在区块链的新浪潮中,为更多人争取“公平”

CECBC

区块链 新浪潮

(28DW-S8-Day1) 定个魔幻的范围:在线教育+区块链

mtfelix

比特币 区块链 在线教育 28天写作 教育+区块链

计算机中的层次化存储是个什么鬼?

冰河

程序员 数据结构 算法 计算机 层次化存储

CNCF:2020年报(摘要)

行人23

cncf

mathtype的几个操作技巧

克比

一起重新全面认识JWT-Json Web Token

谙忆

互联网小拼,这一生的故事,你要看看吗《打工人的那些事》

谙忆

让代码说话:如何把版本信息注入到代码中

zhujun

c++ Python git rust Go 语言

干货 | Redis 实现发布订阅原理与实践

架构精进之路

redis 28天写作 发布订阅

28天瞎写的第二百三十九天:什么是正念冥想?

树上

冥想 28天写作 正念

四象齐备,百花含苞:5GtoC繁华图

脑极体

Github Action 快速上手指南

Zhendong

Java GitHub

deepin20 安装英伟达闭源驱动的步骤详解

夜猫西街

滴普技术荟-云原生基座OpenKube开放容器实践( 七):flannel-udp模式原理分析

最常见的10种Java异常问题!

Java架构师迁哥

微服务架构:网关概念与zuul

程序员架构进阶

服务化 API网关 七日更 28天写作 2月春节不断更

这才是打开“金三银四”Java面试的正确方式,2021“金三银四”看这个就对了

Java 架构 面试

滴普技术荟-云原生基座OpenKube开放容器实践(六):理解linux虚拟网络设备tun

spring framework

sunpengjian

滴普技术荟-云原生基座OpenKube开放容器实践(九):K8S的ServiceIP实现原理

程序员成长第十篇:从阅读代码开始

石云升

28天写作 2月春节不断更 阅读代码

翻译:《实用的Python编程》02_01_Datatypes

codists

Python 人工智能 数据结构与算法 字典 元组

滴普技术荟-云原生基座OpenKube开放容器实践(八):flannel-vxlan模式原理解析

作业-用例文档

让我思考一会儿

腾讯发布区块链产业加速器,生态共创助力新基建建设

CECBC

腾讯

Linux如何使用libudev获取USB设备VID及PID

夜猫西街

2020 年行摄回忆录(下)

穿过生命散发芬芳

生活 摄影

Eventbrite和SEO:Google是如何找到一个页面的?_Google_Beck Cronin-Dixon_InfoQ精选文章