搜索引擎自适应搜索的基本原理
搜索引擎爬虫这几年有了进一步的发展,但基本的前提和目标没有变。爬虫可以根据链接找到页面,并在搜索引擎索引(索引是一个巨大的URL 或网页数据存储库)中记录他们找到的页面的内容。
除了上面提到的一些技术之外,这里还有一些为搜索引擎创建自适应导航的其他指南。使用基于文本链接的导航结构
如果您选择使用Flash、JavaScript 或其他搜索引擎无法解析的技术生成导航,自动漫游器(以及没有所需浏览器插件的访问者)将访问您的页面。
警惕“爬虫陷阱”
即使是智能编码的搜索引擎爬虫也可能陷入网页之间无休止的链接循环中。可以避免重复301 或302 HTTP 服务器代码(或其他重定向协议)的智能结构可以忽略此问题,但有时如果您只想保留几十个关键内容页面,则可以使用在线日历链接、无限循环页码标签、或多个渠道。通过它获得的内容为搜索引擎爬虫生成数千个页面。小心会话ID 和Cookie
如上所述,如果您根据cookie 设置或会话ID 限制用户访问权限页面或重定向他们,搜索引擎可能无法抓取您的内容。执行重复功能的程序不知道cookie 或无法正确处理会话标识符(每次爬虫访问都会获得一个具有不同会话标识符的URL,搜索引擎将这些具有不同会话标识符的URL 视为不同的URL)。尽管我们建议限制表单提交(因为搜索爬虫不提交表单),但不建议通过cookie 和会话标识符限制对内容的访问。注意服务器、主机和IP 问题
服务器问题很少会导致搜索引擎排名—— 出现问题,但一旦发生,就会造成灾难性后果。搜索引擎很清楚常见的服务器问题,例如停机或过载,并让您有时间进行调整(这意味着在服务器停机时爬虫不会抓取您的内容)。另一方面,依赖内容分发网络(CDN) 的网站可能更容易爬行,而CDN 为网站提供了显着的性能提升。
在某些情况下,主机的IP地址也值得更多关注,如果一个网站在向搜索引擎发送垃圾邮件,该IP地址就会做这种负相关分析,从而对其抓取和排名产生负面影响。尽管搜索引擎对共享主机、专用服务器、专用IP 地址或服务器平台不是很挑剔,但您可以通过遵循这些路线来避免许多问题。你至少应该小心,找到受信任的主机,并检查你获得的IP地址的历史和“清洁度”,因为搜索引擎已经对某些域名、主机、IP地址和IP存储块形成了偏见。搜索引擎根据经验知道,这些域名或主机与垃圾邮件密切相关,因此本着对用户负责的态度,搜索引擎会将这些域名或主机从其索引中删除。网站所有者不参与这些操作,因此最好在问题出现之前研究您的网络主机。