黑帽SEO

超悦SEO团队:为什么Bing计划如何改进其爬虫Bingbot

  2018年6月,在西雅图的SMX高级会议上,我宣布在未来18个月内,超悦SEO团队将专注于改进我们的爬虫Bingbot。让我借这篇文章的机会分享我们在这次旅程中的进展和学习。

  为什么要优化抓取?

  首先,让我解释为什么搜索引擎必须抓取网络及其面临的挑战。

  Bing的爬虫,Bingbot是Bing平台的关键组件。 Bingbot的主要在线功能是:

  下载网页以获取最新内容并发现现有已知链接的新链接。验证已编入索引的网络文档仍然有效,而不是死链接,有助于保持Bing索引的全面和新鲜,以回答客户查询及相关结果。

  例如,搜索最新太空火箭发射的Bing客户可以在火箭发射后几秒钟搜索并找到新的相关网页。为了能够链接到这些新URL,我们必须发现,选择,抓取,处理,然后将其编入索引。

  要发现这些新网址,我们必须定期抓取现有的已知网址,以监控新网址。

  超悦SEO团队发现后,我们必须抓取才能获取这些新网址的内容。

  我们必须定期继续抓取这些新索引的网址,以检查潜在的内容更改,并验证这些网页是否仍然有效,而不是死链接。

  换句话说,我们会多次抓取系统中的每个网址。

  保持Bing的索引新颖而全面是一个引人入胜的挑战,原因有两个::

  大规模

  万维网是巨大的,并且保持快速增长。我的团队每天都会发现超过1000亿个以前从未见过的新网址,而忽略了无用的网址参数。

  超悦SEO团队虽然其中许多新网址都是无用的,但有些网址是我们Bing客户的相关内容。

  应该提取或不应提取哪些URL?

  多样性

  网站是:

  基于各种内容管理系统,包括自定义解决方案。支持多种网络托管公司和内容交付网络。由具有与搜索引擎相关的不同目标的不同人员管理。

  每个案件应如何处理?

  我们偶尔会听到网站所有者提出的问题,即Bingbot并没有经常和足够快地抓取他们的网站。

  我们也听说过有时候Bingbot会经常抓取网站。

  向右爬行是一个令人着迷的工程问题,尚未完全解决。所以我们专注于在全球范围内改进和解决它。

  我们在优化什么?

  在深入了解我的团队为改进我们的抓取工具所做的工作之前,超悦SEO团队分享一下我们正在优化的关键指标。

  为了满足内容新鲜度和全面性的需求,Bing的团队必须拥有符合网站下载限制的有效且高效的抓取调度策略。一个有效的解决方案,可以:

  扩展并处理数以亿计的娱乐主机和Bingbot每天抓取的数十亿个网页的多样性。满足所有参与者的需求–网站管理员,网站和内容管理系统–处理网站停机时间并确保我们不会过于频繁地抓取。

  我们的抓取工具的性能可以通过三个核心指标:

  来衡量

  抓取效果

  Bing的索引中的每个页面都应该是其Web版本的新副本。网页更改频率比大多数网站管理员认为的更频繁:

  所售产品的价格可能每天都在变化。世界上每个城市的天气页面一般每天都在变化。版权日期每年都在变化。插页式广告可能会在页面内注入HTML。西雅图网页的时间每秒都在变化。架构内容的变化是网站访问者的眼睛看不到!

  区分有意义的内容变化并不像人们想象的那么容易。

  抓取效率

  我们仅抓取更新的(新的页面内容/有用的出站链接)或新网址。

  理想情况下,我们会在内容上线后立即抓取新网址,并在网页内容更新后或者成为死链接或重定向时再次抓取一次。

  不幸的是,我们限制在某些网站上没有关于内容更改的信号。在这些网站上,我们盲目地抓取,但发现内容已发生变化。

  服从网站礼貌约束

  我们从不像网站管理员那样经常抓狂。

  问题是网站所有者有不同的搜索引擎优化需求,或多或少地与搜索引擎互动。

  虽然一些网站所有者通过Bing网站管理员工具告知Bing他们的每日抓取配额,超悦SEO团队但大多数网站都没有。反过来,搜索引擎被迫猜测分配配额。

  与网站管理员交谈时,我们发现他们有不同的需求。

  有些人要求每天抓取所有网页,以确保我们始终拥有最新内容,而有些网站管理员要求我们只抓取更新后的内容。

  我们如何优化?

  Bingbot面临的挑战是它只能获取一次网页。

  正如我上面提到的,一旦页面发布,我们必须定期获取它以发现内容是否已更新并且它不是死链接。

  定义下一步获取的内容和时间是我们正在考虑通过您的帮助进行优化的问题。

  随着计算机成为优秀且高效的服务人员,我们正在利用它们来建模什么以及何时抓取URL。

  但由于我们不希望完全依赖计算机,网站管理员和我的团队可以最终控制我们每天可以在网站上抓取的网址数量。

  我们的默认抓取策略是在抓取网络时尽可能礼貌。

  为了优化,我们将投资集中在两个领域:

  识别模式以允许Bingbot降低爬网频率

  在大多数网站上,虽然新网页可能每天发布,而某些网页会定期更新,但大多数内容通常不会被编辑数月甚至数年。

  网站的大小随着新内容和更新内容的增加而增加,而不会显着改变以前页面的内容。

  更好地建模和理解每个站点的内容更改是我团队的核心目标之一。我们已经在许多网站上改进了?,并且还有更多的改进。

  利用网站管理员提示

  当我们利用源作为源(Atom,RSS)和站点地图来发现新的和更新的URL时,我们仍然需要经常提取这些URL以发现新的URL–经常,没有任何改变。

  此外,我们刚刚宣布了获得网站管理员的能力。通过每天向Bing提交最多10,000个网址来快速索引内容。

  这是网站管理员每天可以提交的网址数量的显着增加,以便对其内容进行抓取和编制索引。对于我们现场采用限制爬行来说,这是一个强有力的信号。

  如果您告诉超悦SEO团队每个更改,这限制了抓取以发现此类更改的需要,您将快速索引内容。

  因此,我们鼓励大家优先将Bing网站管理员API集成到您的内容管理系统中,以便实时告知我们您的内容更改,并避免让抓取工具浪费在不会改变的内容上。? Yoast宣布支持此API。

  星际迷航的斯波克说,人们可以用一朵花开始重塑景观。我相信这个URL提交API是一个正确的步骤,它将触发爬行环境的重塑,推动行业发展,拯救地球免受全球变暖的影响。

  您可以通过两个简单的步骤:

  测试提交URL API

  第1步:获取您网站的Bing网站管理员工具API ID。

  第2步:为客服您的网站提交新网址。

  使用wget的示例。用你的API ID替换ID,用你的站点Url替换siteUrl,用站点的URL替换bing URL。

  wget.exe“ – header=” Content-Type: application/xml;字符集=UTF-8&素; – post-data=”< SubmitUrl xmlns=\”> url>”

  对于尚未采用提交URL API的网站,我们将继续利用并改进现有内容信号的抓取时间安排,以了解内容更改并对其进行优化。

  最佳做法是建立一个站点地图,列出您网站上的所有相关网址,并至少每天刷新一次,以及列出新网址和包含更新内容的网址的RSS源。

  超悦SEO团队还建议您在Bing网站管理员工具中提交一次站点地图和RSS,以确保我们了解它们,并在发现新网址时检查您的分析。

  一旦提交,我们将定期(大多数情况下,至少每天一次)向前发展。

  结论

  在我们取得进展的同时,我们尚未完成提高爬虫效率的工作。

  我们仍然有很多机会继续提高我们的爬虫的效率和能力,用于改进我们的爬虫调度算法的数百种不同类型的数据。

本文链接:http://www.heimaoke.com/heike/589.html
赞 ()