搜索引擎提供可爬行的链接结构。
搜索引擎使用网页上的链接来帮助您找到其他网页或网站。为此,我们强烈建议您花时间创建一个爬虫可以无缝爬取的内部链架构。许多网站犯了致命的错误,隐藏或模糊了导航结构,限制了爬虫的阅读能力,导致网页没有出现在搜索引擎的索引中。图6-1 说明了此问题是如何发生的。
在图6-1 中,Google 爬虫到达页面A 并看到页面B 和E 的链接,但页面C 和D 可能是网站上更重要的页面,但爬虫无法访问这些页面。这个页面数)主要是因为没有直接的抓取链接点可以到达这些页面。从谷歌的角度来看,这些类型的页面是不存在的。无论内容有多好,如果爬虫一开始就没有到达页面,那么最佳的关键字选择和最佳的营销策略就毫无用处。
搜索引擎提供可爬行的链接结构。
以下是一些可能无法阅读页面的常见原因,它将帮助您重温第2 章中的讨论。
使用提交表单中的链接
搜索爬虫很少“提交”表单,因此只能通过某些格式访问的内容或链接不会出现在搜索引擎中,甚至一些简单的格式也可能适得其反,例如用户注册、搜索框或某些丢弃。 - 下载列表。
使用难以解析的JavaScript 的链接
如果您的链接使用JavaScript,您就会知道搜索引擎不会抓取或关心这些嵌入的链接。 2014 年6 月,Google 宣布能够抓取JavaScript 和CSS。 Google 目前能够解析一些JavaScript 以及访问一些JavaScript 链接。基于此更改,Google 可以抓取JavaScript 和CSS 文件。要预览Google 将如何解析您的网站,请单击Search Console-Crawl-Fetch as google,输入您要预览的URL 并选择“FetchandRender”。
来自Java 或其他插件的链接
通常,搜索引擎不会检查嵌入在Java 和插件中的链接。
Flash 插件
理论上,搜索引擎可以在Flash 中找到链接,但不要过分依赖这种搜索能力。
PowerPoint 和PDF 文件的链接
搜索引擎有时会显示在PowerPoint 文件或PDFA 文件中查看的链接,这些链接看起来类似于嵌入在HTML 文件中的链接。
机器人标签、rel='nofollow' 或robots.txt 受限页面的链接robots.txt 文件提供了一种防止网络爬虫抓取您网站页面的方法。在链接上使用nofollow 属性或向包含以下内容的页面添加内容:关联。='nofollow'属性中的meta-robot nofollow标签指示搜索引擎不要越过链接越过权限链接(这个概念在6.10“推送和检索内容”中有详细说明)。控制”)。由于一些炒作SEO从业者的过度操纵,链接的nofollow属性的有效性已大大降低。有关这方面的更多信息,请参阅Google Matt Cutts博客“页面排名演练”。
带有链接的页面有数千个链接。
以前,Google 建议每个页面最多包含100 个链接。如果超过此数量,它将停止抓取该页面上的其他链接。然而,随着时间的推移,这个提议越来越无效,未来还会进一步增加。通常将其视为通过页面排名的战略指南。如果页面包含200 个链接,则没有链接获得更高的页面排名。限制链接数量以控制页面排名通常是一个好主意。一些工具,如Screaming Frog,可以计算每个页面上活动链接的数量。
链接到框架或内嵌框架
严格来说,框架和嵌入框架之间的链接是可以爬取的,但是框架和嵌入框架在组成机制和跟踪方面给搜索引擎带来了结构性问题。最好不要将链接放入框架中,以避免出现无法抓取的问题,除非您是经验丰富的用户并且搜索引擎在技术层面知道如何索引和跟踪框架中的链接。框架和嵌入式框架在第6.2 节“创建最佳信息架构”中详细讨论。