使用cookie 和会话ID 管理内容
有时,您可能希望精确控制搜索引擎机器人在访问您的网站时看到的内容。通常,搜索引擎人员会通过伪装向用户和爬虫显示不同内容的做法来侵犯搜索引擎。它被视为服务(TOS) 和垃圾邮件。
但是,如果您不是试图欺骗搜索引擎或存在恶意企图,则使用此方法是合法的。本节介绍如何使用cookie 和会话ID 来管理您的内容。
什么是饼干?
cookie 是网站存储在访问者硬盘上的一个小文本文件,是一种允许网站随时跟踪访问者的功能。 Cookie 允许网站记住您的用户名,从而使您每次打开浏览器时都可以直接登录Gmail 帐户。 Cookie 数据通常包含与您上次访问网站、您的ID 号或有关您访问的信息相关的一小组信息。
网站建设者使用cookie 根据用户的行为或偏好跟踪或向用户显示各种信息。常见用途包括记住用户名、保存购物车和跟踪以前查看的内容。例如,注册Moz 帐户可为您提供有关如何在“我的帐户”页面上浏览博客的多个选项,以便您下次访问时记住这些设置。
什么是会话ID
会话ID 在功能上几乎与cookie 相同,但有明显的不同。当您关闭或重新启动浏览器时,会话ID 信息不再保留在您的硬盘驱动器上(通常是这种情况)。如图如图6-33所示。您浏览的网站可能会记住您的数据或操作,但无法从未保存的系统中检索会话ID(浏览器关闭时会话ID 默认无效)。实际上,会话ID 类似于临时cookie(但是,稍后您将了解到,有多种方法可以管理会话ID)。
严格来说,session ID只是一个没有过期日期的cookie,但是你可以像cookie一样设置session ID的过期日期(多年后过期)。从这个意义上说,它实际上与cookie 完全相同,但有一个关于会话ID 的特殊说明。通常,您输入一个URL 字符串,这可能会给搜索引擎带来严重的问题(对于重复的内容,每个请求都会生成一个唯一的URL)。
您可能希望从URL 中删除会话ID,应尽可能避免此类问题。如果现在发生这种情况,短期解决方案是使用rel='canonical' 链接元素(如第6.10 节“内容推送和搜索爬虫控制”中所述)告诉搜索引擎您要忽略会话ID。
所有用户都有权在其浏览器设置中关闭cookie,这通常会使网页浏览变得非常困难,许多网站会显示一个页面,通知用户他们需要打开cookie 才能浏览或查看网站内容。