网站建好了,内容也上了,百度就是不收录,问题出在哪?
你很可能忽略了一个叫 robots.txt 的文件。这东西就一行字,写错了,百度蜘蛛就被你亲手挡在门外。
做独立站的中小老板,最容易在这上面栽跟头。今天直接告诉你,怎么检查、怎么写、怎么避坑。
什么是 robots.txt,它到底管什么用
robots.txt 就是一个纯文本文件,放在你网站根目录下。它的作用就一句话:告诉百度蜘蛛,哪些页面可以进来逛,哪些地方别去。
格式很简单,就三行指令:
User-agent: *
Disallow: /wp-admin/
Sitemap: https://你的域名/sitemap.xml
- User-agent:指定这条规则对谁生效,
*代表所有搜索引擎。 - Disallow:禁止爬取的目录或文件。
- Allow:允许爬取某个路径(通常配合 Disallow 使用)。
- Sitemap:告诉蜘蛛你的网站地图在哪。
你如果不写任何 Disallow,蜘蛛默认可以爬你网站所有公开页面。
你的网站到底需不需要这玩意儿
新站内容少的时候,有没有 robots.txt 区别不大。但一旦你的独立站有几百上千个产品页面、文章、分类页,问题就来了。
百度每天分给你网站的抓取额度是有限的。这叫“抓取预算”。如果你不主动告诉它哪些页面没用,它就会傻乎乎地去爬你的后台登录页、插件文件夹、主题备份文件。真正重要的产品详情页,反而可能排着队等。
一个真实案例:有个做家具的老板,网站有 3000 多个 SKU,但百度三个月只收录了 200 条。查到最后,发现 robots.txt 里误写了一条 Disallow: /product/。去掉之后,一个月收录涨到 800 多条。
所以,当你的网站内容多起来之后,用 robots.txt 管好蜘蛛的路线,是性价比最高的优化动作之一。
一个标准的 robots.txt 长什么样
别搞复杂。大部分独立站用下面这套规则就够了:
User-Agent: *
Allow: /wp-content/uploads/
Disallow: /wp-admin/
Disallow: /readme.html
Disallow: /refer/
Sitemap: https://你的域名/post-sitemap.xml
Sitemap: https://你的域名/page-sitemap.xml
解释一下:
- 允许蜘蛛抓取你上传的图片和文件(
/wp-content/uploads/)。 - 禁止蜘蛛爬后台(
/wp-admin/)、说明文件(readme.html)、以及你用来做推广链接跳转的目录(/refer/)。 - 最后把网站地图的链接写上,方便蜘蛛一次性找到所有重要页面。
如果你用的是其他网店系统,比如 Shopify 或自研系统,逻辑一样:放行图片目录,屏蔽后台和临时文件目录。
一个常见误区:有人觉得把分类页、标签页、归档页全部 Disallow 掉,蜘蛛就能集中精力爬产品页,排名就会上去。
这是错的。百度官方明确说过,禁止爬取分类和归档页,反而会让它搞不清你网站的结构,影响对你内容的判断。不要干这种自作聪明的事。
怎么创建和修改 robots.txt
三种办法,挑你顺手的来。
方法一:用 SEO 插件可视化编辑
如果你的网站装了 SEO 类插件(比如国内常用的那些),一般后台都有 robots.txt 编辑功能。找到插件设置里的“工具”或“文件编辑器”,打开自定义开关,按上面的格式一条条添加规则就行。改完点保存,插件会自动把文件写到根目录。
方法二:用代码插件直接编辑
有些代码管理插件也带文件编辑器。安装后找到“文件编辑器”页面,切换到 robots.txt 标签,把内容粘贴进去保存即可。注意:如果服务器根目录已经有一个物理的 robots.txt 文件,代码插件可能管不了它,需要先把那个文件删掉。
方法三:FTP 手动上传
用 FTP 连上服务器,进网站根目录(一般是 public_html 或 www 文件夹)。看看有没有 robots.txt 这个文件。有的话下载到电脑,用记事本打开修改再传回去。没有的话新建一个,注意文件名必须全小写。
不管用哪种方法,改之前最好把原文件备份一份。手滑写错了还能恢复。
改完之后怎么检查有没有写对
写错一个字母,就可能把整站屏蔽掉。所以必须验证。
百度站长平台里提供了 robots.txt 检测工具。登录进去,在“搜索管控”或“工具”菜单里找到相关功能,输入你的网站,系统会展示它当前抓取到的 robots.txt 内容,并标出有没有语法错误。
如果刚改完去查,发现还是旧版本,别急。百度一般一天内会重新抓取一次这个文件。等 24 小时再看。
另外,每次网站有大改动之后——比如换了域名结构、新装了一个会产生公开目录的插件、或者把测试站迁移上线——都建议回来复查一下 robots.txt,确保没有意外把重要页面挡了。
几个必须搞清楚的常识
- robots.txt 不是安全工具。这个文件是公开的,谁都能在浏览器里输入
你的域名/robots.txt看到。它只能约束遵守规则的搜索引擎蜘蛛,防不了恶意爬虫或黑客。 - robots.txt 和 noindex 是两码事。robots.txt 是禁止蜘蛛访问某个页面;noindex 是允许蜘蛛访问但不让它把页面放进搜索结果。如果你想让某个页面彻底不在百度出现,用 noindex 标签更可靠。只靠 robots.txt 禁止访问,如果别的网站有链接指向那个页面,它依然可能出现在搜索结果里。
- 不要用 robots.txt 来隐藏你不想公开的内容。想真正保密,应该用密码保护或登录验证。
总结
花十分钟检查一下你的 robots.txt,可能比花几千块做外链更管用。记住三个要点:放行图片和上传目录,屏蔽后台和临时文件,写上网站地图。别自作聪明去屏蔽分类和标签页。
一个干净、正确的 robots.txt,是百度蜘蛛进你网站的第一道门。门没开对,里面装修再好也没用。
微信扫码