WordPress的robots.txt怎么设置对SEO最好?

建站知识 岱昊编辑部 3 阅读

中小企业老板看过来:学会正确设置你网站上的机器人文件,就能帮你的WordPress网站在搜索引擎里排得更靠前,避开无效抓取,省下服务器资源。

你花了大价钱建了网站,内容也填了不少,但百度就是不收录你的核心产品页。去查了服务器日志,发现蜘蛛根本没来过。问题可能出在一个你几乎没正眼瞧过的文本文件上——robots.txt。

这个文件是你给搜索引擎爬虫下的“规矩单”。写错了,就等于直接跟百度说:“别来我家,尤其是仓库重地。”很多老板压根不知道,一个简单的符号错误,就能让蜘蛛绕开你最重要的页面。

你的网站到底需不需要这玩意?

网站刚上线,没几篇文章,蜘蛛爱怎么爬都行。但当你产品超过几百个,或者文章发了上千篇,问题就来了。

百度每天分给你网站的抓取额度是有限的。这个额度叫“抓取预算”。如果你的服务器上堆满了后台文件、插件目录、旧版本备份,蜘蛛就会在这些垃圾页面上浪费大量时间。

结果就是:你新上架的一款爆款产品,等了半个月还在“未收录”状态。

什么时候你必须动手?

  • 网站页面超过500个
  • 发现蜘蛛频繁访问/wp-admin/这类后台地址
  • 新发的内容超过3天还没被收录
  • 服务器日志里充斥着对插件文件夹、主题文件夹的请求

最理想的写法长什么样?

别被代码吓住。一个合格的robots.txt文件,核心就三条指令。

最精简、最稳妥的版本:

User-agent: *
Disallow:

Sitemap: https://你的域名.com/sitemap.xml

这行代码的意思:所有蜘蛛都可以爬,不拦任何东西。然后告诉它你的网站地图在哪。

针对独立站/电商网站的更优版本:

User-agent: *
Allow: /wp-content/uploads/
Disallow: /wp-admin/
Disallow: /readme.html
Disallow: /refer/

Sitemap: https://你的域名.com/post-sitemap.xml
Sitemap: https://你的域名.com/page-sitemap.xml

这个版本做了三件事:

  • 明确允许蜘蛛爬取上传的图片和文件(这对产品图收录很重要)
  • 禁止爬后台、readme文件(暴露版本信息有安全风险)、跳转链接目录
  • 提供两个网站地图,一个管文章,一个管页面

一个必须避开的坑: 很多“优化大师”让你禁止蜘蛛爬分类页和标签页。千万别信。百度官方明确反对这种做法。分类和标签页是蜘蛛理解你网站结构的通道,封了它们,你的新产品更难被发现。

怎么动手改?三个路子

路子一:用SEO插件改(最推荐,不出错)

大部分独立站的SEO插件都自带robots编辑器。你不需要懂代码,在后台找到“工具”或“文件编辑器”选项,打开“启用自定义robots”开关,然后像填表格一样添加规则就行。

好处是:它会实时检查语法错误。你写错了,它当场报错,不会让蜘蛛白跑一趟。

路子二:用代码插件改

有些专门管理代码片段的插件也带这个功能。安装后,在设置里找到“文件编辑器”,切换到robots.txt标签页,直接粘贴你准备好的代码。

注意:这种插件是在系统默认规则之上叠加你的规则,不是完全替换。如果你的服务器根目录已经有一个物理的robots.txt文件,需要先删掉它,插件才能生效。

路子三:用FTP或主机文件管理器改(适合懂技术的老板)

通过FTP连上服务器,在网站根目录(一般是public_html或www文件夹)里找到robots.txt文件。没有就自己新建一个,用记事本打开,把上面的代码粘贴进去,保存上传。

操作前一定先下载一份备份。万一手滑写错了,还能恢复。

改完之后怎么验证?

改了不等于完事。你必须确认百度读到了你写的内容。

登录百度搜索资源平台(或者谷歌Search Console),找到“抓取”或“设置”相关的报告。里面会有一个专门的robots.txt检测页面。

它会显示百度最后一次抓取你的robots文件的时间,并标出有没有语法错误。如果你刚刚改完,不用急,百度通常一天内会重新抓取一次。

重要场景必须复查:

  • 新装了一个会生成前端目录的插件后
  • 修改了网址结构(比如从动态链接改成静态链接)
  • 从测试站迁移到正式站之后

每次花两分钟看一眼,能避免蜘蛛被莫名其妙地拦在门外。

搞清楚两个容易混淆的概念

robots.txt 和 noindex 标签有什么区别?

很多老板搞混,结果该拦的没拦住,不该拦的拦死了。

  • robots.txt:管的是“蜘蛛能不能进来”。你说“不许进”,蜘蛛就不来。但注意,如果别的网站已经链接了你的这个页面,百度仍然可能把它收录进索引,只是没法抓取内容。
  • noindex标签:管的是“进来之后,要不要把这个页面放进搜索结果”。蜘蛛可以进来,但看完之后不展示给用户。

实际怎么用?

  • 后台目录、插件文件夹、测试环境 → 用robots.txt禁止抓取
  • 某些你不想展示但用户需要访问的页面(比如订单确认页、筛选结果页) → 用noindex标签

一个常见的错误操作

有人觉得,把整个网站的所有分类、标签、归档页都封了,蜘蛛就能集中精力爬产品页了。

这个想法是错的。

百度靠分类和标签来理解你网站的主题结构。你把路标都拆了,蜘蛛就搞不清你的产品属于哪个类别,甚至可能认为你的网站结构混乱,降低对你的评价。

正确做法: 只封掉那些确实不需要被搜索到的内部文件——后台、插件、主题、readme文件。所有对用户有价值的内容,包括分类页,都让蜘蛛正常访问。

最后说一句

robots.txt不是安全工具。它是公开的,任何人都能通过你的域名/robots.txt看到你禁止了哪些目录。所以别指望用它来隐藏商业机密。

它的真正作用,是帮百度把有限的抓取精力,花在你最想被收录的那些页面上。写对了,收录速度能快一大截;写错了,你花几万块做的产品页,可能永远躺在“未收录”的列表里。

看完还有疑问?直接问我们

资深顾问 1 对 1 解答,免费出方案与透明报价,不满意不推进。

已收到!我们将在 1 个工作日内联系你。
免费获取方案填写需求 · 1 工作日回复
微信二维码 微信扫码加资深顾问 · 发需求更快
QQ 在线咨询点击直接沟通 咨询热线 · 工作日 9:00–18:0015587454277 Sunpeak@yeah.net商务合作 / 项目咨询
微信二维码 微信扫码加顾问截图保存后,用微信扫一扫