WordPress的robots.txt如何优化才有利于百度收录

建站知识 岱昊编辑部 3 阅读

用这个robots.txt文件配置技巧,你就能管住搜索引擎抓取你WordPress站点的哪些页面,避免浪费权重,直接提升网站排名和收录效率。

你花了几万块做的网站,百度就是不收录,核心页面一个都没进来。

查来查去,问题可能出在一个你从来没注意过的文本文件上——robots.txt。

这东西只有几行字,写错了,百度蜘蛛直接绕开你的产品页,跑去抓那些没用的后台文件。更冤的是,很多人根本不知道有这个文件存在。

你的网站有没有被自己“屏蔽”了?

打开浏览器,在地址栏输入你的域名,后面加上 /robots.txt。

比如你的域名是 abc.com,就访问 abc.com/robots.txt。

如果看到一堆 Disallow 的指令,尤其是有 Disallow: / 这一条,那等于你亲口告诉百度:整个网站都别来。

这种情况,要么是当初建站时模板自带的默认配置,要么是某个插件自动生成的。你辛辛苦苦上架产品、写文章,百度压根没收到邀请函。

一个正常的 robots.txt 长什么样

大部分电商网站和展示型网站,用下面这个最简单的版本就够了:

User-agent: *
Disallow:

Sitemap: https://www.你的域名.com/sitemap.xml

这个文件的意思是:所有搜索引擎蜘蛛,你们随便抓,没有限制。同时把网站地图的地址告诉它,方便它找到所有页面。

如果你的网站是用常见的网店系统(比如 WordPress 或其他 PHP 架构)搭建的,可以再加几条,让蜘蛛别去浪费时间的目录:

User-agent: *
Allow: /wp-content/uploads/
Disallow: /wp-admin/
Disallow: /readme.html

Sitemap: https://www.你的域名.com/sitemap.xml

关键点:

  • Allow 那一行,是允许蜘蛛抓取图片和上传的文件,这对产品展示页很重要。
  • Disallow 的是后台管理路径,这些页面蜘蛛进去了也没用,还占用你网站的抓取额度。
  • 网站地图那一行,一定要换成你自己的真实地址。

为什么不能随便屏蔽分类页和标签页

有些“优化技巧”会告诉你,把分类页、标签页、归档页都屏蔽掉,让蜘蛛集中抓产品页。

这个说法是错的。

百度官方明确说过,不推荐屏蔽分类和标签。这些页面能帮蜘蛛理解你网站的结构,知道哪些产品属于什么类别。你把它们屏蔽了,蜘蛛反而搞不清你的内容体系,收录效果会更差。

一个真实踩坑的例子

有个做家具的老板,网站上线三个月,百度只收录了首页。

他找人查,发现 robots.txt 里写了一大串 Disallow,把 /category/、/tag/、/author/ 全屏蔽了,还屏蔽了 /product/ 目录下的部分参数页。

问题是,他的产品详情页 URL 里带有分类参数,被 Disallow 规则误伤,蜘蛛根本进不去。

解决方案很简单:把 robots.txt 改成上面那个标准版,保留 Allow 图片目录,只屏蔽 /wp-admin/ 和 /readme.html。一周后,百度收录量从 1 页涨到 40 多页。

怎么修改这个文件

三个办法,选一个你顺手的:

办法一:用 SEO 插件改
如果你的网店系统装了 SEO 类插件(比如市面上主流的几个),一般都有 robots.txt 编辑功能。在插件设置里找到“工具”或“文件编辑器”,打开自定义开关,把上面的代码粘贴进去,保存就行。这种最安全,不容易改错格式。

办法二:用代码插件改
有些专门管理代码片段的插件,也带文件编辑功能。找到文件编辑器,选择 robots.txt 标签页,直接修改。

办法三:用 FTP 手动改
连上服务器的根目录,找到 robots.txt 文件。没有的话就新建一个空白的文本文件,命名为 robots.txt,用记事本打开,输入代码,保存后上传。

注意:如果你之前没有这个文件,系统会生成一个默认的。手动创建的文件会覆盖默认的,所以内容一定要写全。

改完后怎么确认没问题

修改完第二天,去百度搜索资源平台(就是以前站长平台那个后台),找到抓取检测或 robots 检测工具。

输入你的 robots.txt 地址,看有没有报错。常见的错误是格式写错了,比如冒号后面忘了空格,或者路径写漏了斜杠。

如果检测显示正常,再选一个你最重要的产品页,用抓取检测工具跑一遍。看返回的状态码是不是 200,同时确认“允许抓取”的标记是绿色的。

一个容易搞混的概念

robots.txt 管的是“蜘蛛能不能爬你这个页面”。

还有一种情况是,你允许蜘蛛爬,但不想让它把这个页面展示在搜索结果里。比如某些凑单页、临时活动页、重复筛选页。

这种情况应该用 noindex 标签,在页面头部加一行代码。robots.txt 管不了“展示不展示”这件事。

记住:屏蔽在 robots.txt 里的页面,如果已经被别的网站链接过,百度仍然有可能把它展示出来。真正要隐藏的页面,必须用 noindex。

什么时候需要重新检查这个文件

  • 网站刚搬家或换域名之后
  • 新装了一个会生成新目录的插件
  • 网站改版,URL 结构变了
  • 发现百度收录量突然大幅下降

每次改完,过一两天去百度搜索资源平台看一眼,确认蜘蛛能正常访问你的核心页面。

总结几条硬道理

  • 没有 robots.txt 文件,比写错要好
  • 只屏蔽后台和系统文件,别屏蔽内容和产品
  • 网站地图地址一定要写对
  • 分类和标签不要屏蔽
  • 改完一定要用工具检测

这个文件虽然小,但它是百度蜘蛛进你网站的第一道门。门开错了,后面做再多优化都是白费力气。

看完还有疑问?直接问我们

资深顾问 1 对 1 解答,免费出方案与透明报价,不满意不推进。

已收到!我们将在 1 个工作日内联系你。
免费获取方案填写需求 · 1 工作日回复
微信二维码 微信扫码加资深顾问 · 发需求更快
QQ 在线咨询点击直接沟通 咨询热线 · 工作日 9:00–18:0015587454277 Sunpeak@yeah.net商务合作 / 项目咨询
微信二维码 微信扫码加顾问截图保存后,用微信扫一扫