你花了几万块做的网站,百度就是不收录,核心页面一个都没进来。
查来查去,问题可能出在一个你从来没注意过的文本文件上——robots.txt。
这东西只有几行字,写错了,百度蜘蛛直接绕开你的产品页,跑去抓那些没用的后台文件。更冤的是,很多人根本不知道有这个文件存在。
你的网站有没有被自己“屏蔽”了?
打开浏览器,在地址栏输入你的域名,后面加上 /robots.txt。
比如你的域名是 abc.com,就访问 abc.com/robots.txt。
如果看到一堆 Disallow 的指令,尤其是有 Disallow: / 这一条,那等于你亲口告诉百度:整个网站都别来。
这种情况,要么是当初建站时模板自带的默认配置,要么是某个插件自动生成的。你辛辛苦苦上架产品、写文章,百度压根没收到邀请函。
一个正常的 robots.txt 长什么样
大部分电商网站和展示型网站,用下面这个最简单的版本就够了:
User-agent: *
Disallow:
Sitemap: https://www.你的域名.com/sitemap.xml
这个文件的意思是:所有搜索引擎蜘蛛,你们随便抓,没有限制。同时把网站地图的地址告诉它,方便它找到所有页面。
如果你的网站是用常见的网店系统(比如 WordPress 或其他 PHP 架构)搭建的,可以再加几条,让蜘蛛别去浪费时间的目录:
User-agent: *
Allow: /wp-content/uploads/
Disallow: /wp-admin/
Disallow: /readme.html
Sitemap: https://www.你的域名.com/sitemap.xml
关键点:
- Allow 那一行,是允许蜘蛛抓取图片和上传的文件,这对产品展示页很重要。
- Disallow 的是后台管理路径,这些页面蜘蛛进去了也没用,还占用你网站的抓取额度。
- 网站地图那一行,一定要换成你自己的真实地址。
为什么不能随便屏蔽分类页和标签页
有些“优化技巧”会告诉你,把分类页、标签页、归档页都屏蔽掉,让蜘蛛集中抓产品页。
这个说法是错的。
百度官方明确说过,不推荐屏蔽分类和标签。这些页面能帮蜘蛛理解你网站的结构,知道哪些产品属于什么类别。你把它们屏蔽了,蜘蛛反而搞不清你的内容体系,收录效果会更差。
一个真实踩坑的例子
有个做家具的老板,网站上线三个月,百度只收录了首页。
他找人查,发现 robots.txt 里写了一大串 Disallow,把 /category/、/tag/、/author/ 全屏蔽了,还屏蔽了 /product/ 目录下的部分参数页。
问题是,他的产品详情页 URL 里带有分类参数,被 Disallow 规则误伤,蜘蛛根本进不去。
解决方案很简单:把 robots.txt 改成上面那个标准版,保留 Allow 图片目录,只屏蔽 /wp-admin/ 和 /readme.html。一周后,百度收录量从 1 页涨到 40 多页。
怎么修改这个文件
三个办法,选一个你顺手的:
办法一:用 SEO 插件改
如果你的网店系统装了 SEO 类插件(比如市面上主流的几个),一般都有 robots.txt 编辑功能。在插件设置里找到“工具”或“文件编辑器”,打开自定义开关,把上面的代码粘贴进去,保存就行。这种最安全,不容易改错格式。
办法二:用代码插件改
有些专门管理代码片段的插件,也带文件编辑功能。找到文件编辑器,选择 robots.txt 标签页,直接修改。
办法三:用 FTP 手动改
连上服务器的根目录,找到 robots.txt 文件。没有的话就新建一个空白的文本文件,命名为 robots.txt,用记事本打开,输入代码,保存后上传。
注意:如果你之前没有这个文件,系统会生成一个默认的。手动创建的文件会覆盖默认的,所以内容一定要写全。
改完后怎么确认没问题
修改完第二天,去百度搜索资源平台(就是以前站长平台那个后台),找到抓取检测或 robots 检测工具。
输入你的 robots.txt 地址,看有没有报错。常见的错误是格式写错了,比如冒号后面忘了空格,或者路径写漏了斜杠。
如果检测显示正常,再选一个你最重要的产品页,用抓取检测工具跑一遍。看返回的状态码是不是 200,同时确认“允许抓取”的标记是绿色的。
一个容易搞混的概念
robots.txt 管的是“蜘蛛能不能爬你这个页面”。
还有一种情况是,你允许蜘蛛爬,但不想让它把这个页面展示在搜索结果里。比如某些凑单页、临时活动页、重复筛选页。
这种情况应该用 noindex 标签,在页面头部加一行代码。robots.txt 管不了“展示不展示”这件事。
记住:屏蔽在 robots.txt 里的页面,如果已经被别的网站链接过,百度仍然有可能把它展示出来。真正要隐藏的页面,必须用 noindex。
什么时候需要重新检查这个文件
- 网站刚搬家或换域名之后
- 新装了一个会生成新目录的插件
- 网站改版,URL 结构变了
- 发现百度收录量突然大幅下降
每次改完,过一两天去百度搜索资源平台看一眼,确认蜘蛛能正常访问你的核心页面。
总结几条硬道理
- 没有 robots.txt 文件,比写错要好
- 只屏蔽后台和系统文件,别屏蔽内容和产品
- 网站地图地址一定要写对
- 分类和标签不要屏蔽
- 改完一定要用工具检测
这个文件虽然小,但它是百度蜘蛛进你网站的第一道门。门开错了,后面做再多优化都是白费力气。
微信扫码