网站的可访问性是SEO的关键要素之一,经常无法访问的网站肯定是不受搜索引擎待见的。不过有些情况下,需要临时关闭网站,例如维护服务器、网站程序升级修复等都需要短暂停止网站。那么这些情况要如何做才不影响搜索引擎排名呢?
任何关闭网站的行为都要尽量避免
搜索引擎的爬虫会不断的爬行网站的URL,如果URL无法访问,则会导致爬虫短期不再光顾,这对SEO是不利的。
但极短的时间内恢复了正常访问,这种影响不会很大,只要不是404错误,一般情况下爬虫会稍后再试。例如服务器重启、或短暂关闭再恢复,对SEO影响不大。
如果打算关闭网站一天或更长时间应该怎么做?
暂时关闭网站没有好办法。如果可能的话,应该避免这样做。
本文介绍的方法只能帮助网站降低损失。
最佳建议包括:
- 使用 HTTP 503 状态码
- 保持 HTTP 503 不超过一天
- robots.txt 必须保持返回 200 状态码
- 如果网站停机时间超过一天,请为后果做好准备,搜索引擎会在一定时间内降低爬行频率,直至网站稳定运行较长的一段时间后。
HTTP 503 状态码
当网站脱机时,确保它向网络爬虫提供 HTTP 503 状态代码。503 是通知服务器端请求失败的 HTTP 代码之一。在这种情况下,传递的消息是:“ 服务暂时不可用 ”。
当像 Googlebot 或 Baiduspider 这样的网络爬虫遇到 503 状态代码时,它们会知道该网站不可用,并且可能稍后会变得可用。
使用 503 代码,爬虫知道要再次检查该网站,而不是将其从搜索索引中删除。
可以在 Chrome 中检查,使用DevTools调试工具,选择顶部的“网络”,然后刷新页面。检查顶部条目,它应该是红色并显示 503 状态。
HTTP 503 状态码不要超过一天
爬虫在最初遇到 503 后会尝试重返网站,但不会永远重试。
如果日复一日地看到 503 代码,它最终会开始从索引中删除页面。
保持 503 状态 – 理想情况下 – 最多一天,虽然并非所有内容都仅限于 1 天。
Robots.txt 保持 200 状态码
虽然已关闭网站的页面应返回 503 代码,但 robots.txt 文件应返回 200 状态代码。
Robots.txt 不应该提供 503,否则爬虫将假定该网站已被完全阻止抓取。
为负面影响做准备
如果网站将离线超过一天,请做好相应的准备,没有办法让网站长时间离线后,避免所有不利后果。
当再次“开启”网站时,请检查关键页面是否仍被编入索引。如果不是,尽快尝试重新提交索引。
无论如何要避免重要页面404错误
爬虫遇到503状态码会尝试重试,但404状态码就不同了,这代表网页不存在了。部分搜索引擎可能会重试。
相关文章
网址设置
网址样式切换
网址卡片按钮
布局设置
左侧边栏菜单
页面最大宽度
搜索框设置
自定义搜索框背景
自定义搜索框高度
- 聚焦
- 信息
- 默认