你花了几万块做的网站,百度就是不收录。
查来查去,问题可能出在一个不起眼的文本文件上——robots.txt。这东西只有几行代码,但写错一行,百度爬虫就可能绕开你最重要的产品页面,跑去抓那些没用的后台文件。
别慌,这事修起来比你想象中简单。
你到底需不需要管这个文件
网站刚上线、内容不多的时候,robots.txt 用不用差别不大。
但一旦你的产品超过几十个、文章上百篇,问题就来了。百度每天分给你网站的抓取额度是有限的——这叫“抓取预算”。如果你的预算被浪费在后台登录页、插件文件夹、主题备份文件上,真正该被抓的产品页和案例页反而排不上队。
我们见过一个做机械配件的老板,网站做了两年,百度只收录了首页和关于我们。一查 robots.txt,发现里头误写了一条规则,把整个产品目录都屏蔽了。改完当天,百度站长工具里就看到爬虫开始抓产品页。
所以,什么时候该动手?当你发现:
- 网站内容不少,但百度收录量长期上不去
- 新发的内容过了一两周还没被收录
- 百度站长工具里显示“抓取异常”增多
一个标准的 robots.txt 长什么样
先看最简单的版本,适合大多数普通企业站:
User-agent: *
Disallow:
Sitemap: https://www.nideyuming.com/sitemap.xml
这行代码的意思是:所有搜索引擎爬虫都可以抓取所有内容,我把网站地图放在这里,你们照着抓就行。
但对于用某款常见网店系统(比如 WordPress、Zblog、或自建站)的老板,建议用这个更精细的版本:
User-agent: *
Allow: /wp-content/uploads/
Disallow: /wp-admin/
Disallow: /readme.html
Disallow: /refer/
Sitemap: https://www.nideyuming.com/sitemap.xml
这里做了三件事:
- 允许爬虫抓取图片和上传的文件(产品图必须让百度看到)
- 禁止爬虫进入后台管理目录、版本说明文件(这些对用户没用,还暴露信息)
- 告诉百度你的网站地图在哪
千万别踩的两个坑
坑一:把分类页和标签页给屏蔽了
有些做 SEO 的“老师”教人屏蔽分类归档页,说是为了集中权重。这完全是错的。百度官方明确说过,分类页和标签页能帮它理解你网站的结构,屏蔽了反而影响收录和排名。
坑二:以为屏蔽了就能从搜索结果消失
robots.txt 只是不让爬虫来抓,但如果别的网站已经链了你的页面,百度照样可能把它收录进去。真正想从搜索结果里彻底拿掉一页,要用 noindex 标签。举个例子:你有个“感谢下单”页面,用户付完款看到就行,不需要出现在搜索结果里,这时候就该用 noindex,而不是在 robots.txt 里屏蔽。
怎么检查自己有没有写对
最简单的方法:在浏览器地址栏输入 你的域名/robots.txt,直接就能看到当前内容。
更靠谱的方法是去百度站长平台。登录后找到“抓取诊断”或“ robots.txt 检测”工具,把文件内容贴进去,系统会告诉你有没有语法错误。
一个小技巧:每次网站有大改动——比如换了域名结构、新装了一个会产生新目录的插件、或者做了改版——都去检查一遍。我们见过太多案例,都是改版时不小心把新目录写进了屏蔽规则里。
动手改的三个办法
方法一:用 SEO 插件改(最推荐)
如果你的网站用的是常见网店系统,装一个带 robots.txt 编辑功能的 SEO 插件。这类插件通常有可视化界面,你点点按钮就能添加规则,还能实时检查有没有写错。操作路径一般是:插件设置 → 工具 → robots.txt 编辑器。打开“启用自定义”开关,按上面的格式往里填就行。
方法二:用代码插件改
有些老板不想装太大的 SEO 插件,可以装一个轻量的代码管理插件。这类插件里通常有个“文件编辑器”功能,切换到 robots.txt 标签页,直接粘贴内容保存。
方法三:用 FTP 手动改
如果你的网站是找外包公司做的,对方可能没给你装插件的权限。那就用 FTP 连上服务器,在网站根目录(通常是 www 或 public_html 文件夹)里找到 robots.txt 文件。用记事本打开编辑,保存后上传覆盖。
注意:如果根目录里没有这个文件,就自己新建一个文本文档,命名为 robots.txt,写好后上传。
改完之后做什么
保存之后别以为就完事了。百度抓取 robots.txt 的频率大概是每天一次,所以你今天改的,可能要明天才生效。
第二天去百度站长平台看看“抓取异常”有没有减少,收录量有没有变化。正常情况下一两周内能看到改善。
如果改完发现收录反而变少了,赶紧检查是不是不小心把重要目录给屏蔽了。把文件恢复成最上面那个最简单的版本,等恢复后再一条一条加规则测试。
最后说句实在话
robots.txt 不是 SEO 的灵丹妙药。它解决的是“爬虫别乱跑”的问题,解决不了“内容本身好不好”的问题。
但反过来说,如果这个文件写错了,你花再多钱做内容、发外链,百度爬虫都进不来,全白搭。
花十分钟检查一下,可能是你这段时间最划算的一笔时间投资。
微信扫码