WordPress robots.txt怎么设置才能被百度收录

建站知识 岱昊编辑部 6 阅读

想知道怎么用robots.txt文件提升WordPress网站的SEO排名?这篇文章手把手教中小企业老板正确优化robots.txt,避开搜索引擎抓取坑,让网站收录更高效。

网站建好了,内容也上了,百度就是不收录,问题出在哪?

你很可能忽略了一个叫 robots.txt 的文件。这东西就一行字,写错了,百度蜘蛛就被你亲手挡在门外。

做独立站的中小老板,最容易在这上面栽跟头。今天直接告诉你,怎么检查、怎么写、怎么避坑。

什么是 robots.txt,它到底管什么用

robots.txt 就是一个纯文本文件,放在你网站根目录下。它的作用就一句话:告诉百度蜘蛛,哪些页面可以进来逛,哪些地方别去。

格式很简单,就三行指令:

User-agent: *
Disallow: /wp-admin/
Sitemap: https://你的域名/sitemap.xml
  • User-agent:指定这条规则对谁生效,* 代表所有搜索引擎。
  • Disallow:禁止爬取的目录或文件。
  • Allow:允许爬取某个路径(通常配合 Disallow 使用)。
  • Sitemap:告诉蜘蛛你的网站地图在哪。

你如果不写任何 Disallow,蜘蛛默认可以爬你网站所有公开页面。

你的网站到底需不需要这玩意儿

新站内容少的时候,有没有 robots.txt 区别不大。但一旦你的独立站有几百上千个产品页面、文章、分类页,问题就来了。

百度每天分给你网站的抓取额度是有限的。这叫“抓取预算”。如果你不主动告诉它哪些页面没用,它就会傻乎乎地去爬你的后台登录页、插件文件夹、主题备份文件。真正重要的产品详情页,反而可能排着队等。

一个真实案例:有个做家具的老板,网站有 3000 多个 SKU,但百度三个月只收录了 200 条。查到最后,发现 robots.txt 里误写了一条 Disallow: /product/。去掉之后,一个月收录涨到 800 多条。

所以,当你的网站内容多起来之后,用 robots.txt 管好蜘蛛的路线,是性价比最高的优化动作之一。

一个标准的 robots.txt 长什么样

别搞复杂。大部分独立站用下面这套规则就够了:

User-Agent: *
Allow: /wp-content/uploads/
Disallow: /wp-admin/
Disallow: /readme.html
Disallow: /refer/

Sitemap: https://你的域名/post-sitemap.xml
Sitemap: https://你的域名/page-sitemap.xml

解释一下:

  • 允许蜘蛛抓取你上传的图片和文件(/wp-content/uploads/)。
  • 禁止蜘蛛爬后台(/wp-admin/)、说明文件(readme.html)、以及你用来做推广链接跳转的目录(/refer/)。
  • 最后把网站地图的链接写上,方便蜘蛛一次性找到所有重要页面。

如果你用的是其他网店系统,比如 Shopify 或自研系统,逻辑一样:放行图片目录,屏蔽后台和临时文件目录。

一个常见误区:有人觉得把分类页、标签页、归档页全部 Disallow 掉,蜘蛛就能集中精力爬产品页,排名就会上去。

这是错的。百度官方明确说过,禁止爬取分类和归档页,反而会让它搞不清你网站的结构,影响对你内容的判断。不要干这种自作聪明的事。

怎么创建和修改 robots.txt

三种办法,挑你顺手的来。

方法一:用 SEO 插件可视化编辑

如果你的网站装了 SEO 类插件(比如国内常用的那些),一般后台都有 robots.txt 编辑功能。找到插件设置里的“工具”或“文件编辑器”,打开自定义开关,按上面的格式一条条添加规则就行。改完点保存,插件会自动把文件写到根目录。

方法二:用代码插件直接编辑

有些代码管理插件也带文件编辑器。安装后找到“文件编辑器”页面,切换到 robots.txt 标签,把内容粘贴进去保存即可。注意:如果服务器根目录已经有一个物理的 robots.txt 文件,代码插件可能管不了它,需要先把那个文件删掉。

方法三:FTP 手动上传

用 FTP 连上服务器,进网站根目录(一般是 public_htmlwww 文件夹)。看看有没有 robots.txt 这个文件。有的话下载到电脑,用记事本打开修改再传回去。没有的话新建一个,注意文件名必须全小写。

不管用哪种方法,改之前最好把原文件备份一份。手滑写错了还能恢复。

改完之后怎么检查有没有写对

写错一个字母,就可能把整站屏蔽掉。所以必须验证。

百度站长平台里提供了 robots.txt 检测工具。登录进去,在“搜索管控”或“工具”菜单里找到相关功能,输入你的网站,系统会展示它当前抓取到的 robots.txt 内容,并标出有没有语法错误。

如果刚改完去查,发现还是旧版本,别急。百度一般一天内会重新抓取一次这个文件。等 24 小时再看。

另外,每次网站有大改动之后——比如换了域名结构、新装了一个会产生公开目录的插件、或者把测试站迁移上线——都建议回来复查一下 robots.txt,确保没有意外把重要页面挡了。

几个必须搞清楚的常识

  • robots.txt 不是安全工具。这个文件是公开的,谁都能在浏览器里输入 你的域名/robots.txt 看到。它只能约束遵守规则的搜索引擎蜘蛛,防不了恶意爬虫或黑客。
  • robots.txt 和 noindex 是两码事。robots.txt 是禁止蜘蛛访问某个页面;noindex 是允许蜘蛛访问但不让它把页面放进搜索结果。如果你想让某个页面彻底不在百度出现,用 noindex 标签更可靠。只靠 robots.txt 禁止访问,如果别的网站有链接指向那个页面,它依然可能出现在搜索结果里。
  • 不要用 robots.txt 来隐藏你不想公开的内容。想真正保密,应该用密码保护或登录验证。

总结

花十分钟检查一下你的 robots.txt,可能比花几千块做外链更管用。记住三个要点:放行图片和上传目录,屏蔽后台和临时文件,写上网站地图。别自作聪明去屏蔽分类和标签页。

一个干净、正确的 robots.txt,是百度蜘蛛进你网站的第一道门。门没开对,里面装修再好也没用。

看完还有疑问?直接问我们

资深顾问 1 对 1 解答,免费出方案与透明报价,不满意不推进。

已收到!我们将在 1 个工作日内联系你。
免费获取方案填写需求 · 1 工作日回复
微信二维码 微信扫码加资深顾问 · 发需求更快
QQ 在线咨询点击直接沟通 咨询热线 · 工作日 9:00–18:0015587454277 Sunpeak@yeah.net商务合作 / 项目咨询
微信二维码 微信扫码加顾问截图保存后,用微信扫一扫