WordPress的robots.txt怎么设置对SEO最好？

你花了大价钱建了网站，内容也填了不少，但百度就是不收录你的核心产品页。去查了服务器日志，发现蜘蛛根本没来过。问题可能出在一个你几乎没正眼瞧过的文本文件上——robots.txt。

这个文件是你给搜索引擎爬虫下的“规矩单”。写错了，就等于直接跟百度说：“别来我家，尤其是仓库重地。”很多老板压根不知道，一个简单的符号错误，就能让蜘蛛绕开你最重要的页面。

你的网站到底需不需要这玩意？

网站刚上线，没几篇文章，蜘蛛爱怎么爬都行。但当你产品超过几百个，或者文章发了上千篇，问题就来了。

百度每天分给你网站的抓取额度是有限的。这个额度叫“抓取预算”。如果你的服务器上堆满了后台文件、插件目录、旧版本备份，蜘蛛就会在这些垃圾页面上浪费大量时间。

结果就是：你新上架的一款爆款产品，等了半个月还在“未收录”状态。

什么时候你必须动手？

网站页面超过500个
发现蜘蛛频繁访问/wp-admin/这类后台地址
新发的内容超过3天还没被收录
服务器日志里充斥着对插件文件夹、主题文件夹的请求

最理想的写法长什么样？

别被代码吓住。一个合格的robots.txt文件，核心就三条指令。

最精简、最稳妥的版本：

User-agent: *
Disallow:

Sitemap: https://你的域名.com/sitemap.xml

这行代码的意思：所有蜘蛛都可以爬，不拦任何东西。然后告诉它你的网站地图在哪。

针对独立站/电商网站的更优版本：

User-agent: *
Allow: /wp-content/uploads/
Disallow: /wp-admin/
Disallow: /readme.html
Disallow: /refer/

Sitemap: https://你的域名.com/post-sitemap.xml
Sitemap: https://你的域名.com/page-sitemap.xml

这个版本做了三件事：

明确允许蜘蛛爬取上传的图片和文件（这对产品图收录很重要）
禁止爬后台、readme文件（暴露版本信息有安全风险）、跳转链接目录
提供两个网站地图，一个管文章，一个管页面

一个必须避开的坑： 很多“优化大师”让你禁止蜘蛛爬分类页和标签页。千万别信。百度官方明确反对这种做法。分类和标签页是蜘蛛理解你网站结构的通道，封了它们，你的新产品更难被发现。

怎么动手改？三个路子

路子一：用SEO插件改（最推荐，不出错）

大部分独立站的SEO插件都自带robots编辑器。你不需要懂代码，在后台找到“工具”或“文件编辑器”选项，打开“启用自定义robots”开关，然后像填表格一样添加规则就行。

好处是：它会实时检查语法错误。你写错了，它当场报错，不会让蜘蛛白跑一趟。

路子二：用代码插件改

有些专门管理代码片段的插件也带这个功能。安装后，在设置里找到“文件编辑器”，切换到robots.txt标签页，直接粘贴你准备好的代码。

注意：这种插件是在系统默认规则之上叠加你的规则，不是完全替换。如果你的服务器根目录已经有一个物理的robots.txt文件，需要先删掉它，插件才能生效。

路子三：用FTP或主机文件管理器改（适合懂技术的老板）

通过FTP连上服务器，在网站根目录（一般是public_html或www文件夹）里找到robots.txt文件。没有就自己新建一个，用记事本打开，把上面的代码粘贴进去，保存上传。

操作前一定先下载一份备份。万一手滑写错了，还能恢复。

改完之后怎么验证？

改了不等于完事。你必须确认百度读到了你写的内容。

登录百度搜索资源平台（或者谷歌Search Console），找到“抓取”或“设置”相关的报告。里面会有一个专门的robots.txt检测页面。

它会显示百度最后一次抓取你的robots文件的时间，并标出有没有语法错误。如果你刚刚改完，不用急，百度通常一天内会重新抓取一次。

重要场景必须复查：

新装了一个会生成前端目录的插件后
修改了网址结构（比如从动态链接改成静态链接）
从测试站迁移到正式站之后

每次花两分钟看一眼，能避免蜘蛛被莫名其妙地拦在门外。

搞清楚两个容易混淆的概念

robots.txt 和 noindex 标签有什么区别？

很多老板搞混，结果该拦的没拦住，不该拦的拦死了。

robots.txt：管的是“蜘蛛能不能进来”。你说“不许进”，蜘蛛就不来。但注意，如果别的网站已经链接了你的这个页面，百度仍然可能把它收录进索引，只是没法抓取内容。
noindex标签：管的是“进来之后，要不要把这个页面放进搜索结果”。蜘蛛可以进来，但看完之后不展示给用户。

实际怎么用？

后台目录、插件文件夹、测试环境 → 用robots.txt禁止抓取
某些你不想展示但用户需要访问的页面（比如订单确认页、筛选结果页） → 用noindex标签

一个常见的错误操作

有人觉得，把整个网站的所有分类、标签、归档页都封了，蜘蛛就能集中精力爬产品页了。

这个想法是错的。

百度靠分类和标签来理解你网站的主题结构。你把路标都拆了，蜘蛛就搞不清你的产品属于哪个类别，甚至可能认为你的网站结构混乱，降低对你的评价。

正确做法： 只封掉那些确实不需要被搜索到的内部文件——后台、插件、主题、readme文件。所有对用户有价值的内容，包括分类页，都让蜘蛛正常访问。

最后说一句

robots.txt不是安全工具。它是公开的，任何人都能通过你的域名/robots.txt看到你禁止了哪些目录。所以别指望用它来隐藏商业机密。

它的真正作用，是帮百度把有限的抓取精力，花在你最想被收录的那些页面上。写对了，收录速度能快一大截；写错了，你花几万块做的产品页，可能永远躺在“未收录”的列表里。