你花了大价钱建了网站,内容也填了不少,但百度就是不收录你的核心产品页。去查了服务器日志,发现蜘蛛根本没来过。问题可能出在一个你几乎没正眼瞧过的文本文件上——robots.txt。
这个文件是你给搜索引擎爬虫下的“规矩单”。写错了,就等于直接跟百度说:“别来我家,尤其是仓库重地。”很多老板压根不知道,一个简单的符号错误,就能让蜘蛛绕开你最重要的页面。
你的网站到底需不需要这玩意?
网站刚上线,没几篇文章,蜘蛛爱怎么爬都行。但当你产品超过几百个,或者文章发了上千篇,问题就来了。
百度每天分给你网站的抓取额度是有限的。这个额度叫“抓取预算”。如果你的服务器上堆满了后台文件、插件目录、旧版本备份,蜘蛛就会在这些垃圾页面上浪费大量时间。
结果就是:你新上架的一款爆款产品,等了半个月还在“未收录”状态。
什么时候你必须动手?
- 网站页面超过500个
- 发现蜘蛛频繁访问/wp-admin/这类后台地址
- 新发的内容超过3天还没被收录
- 服务器日志里充斥着对插件文件夹、主题文件夹的请求
最理想的写法长什么样?
别被代码吓住。一个合格的robots.txt文件,核心就三条指令。
最精简、最稳妥的版本:
User-agent: *
Disallow:
Sitemap: https://你的域名.com/sitemap.xml
这行代码的意思:所有蜘蛛都可以爬,不拦任何东西。然后告诉它你的网站地图在哪。
针对独立站/电商网站的更优版本:
User-agent: *
Allow: /wp-content/uploads/
Disallow: /wp-admin/
Disallow: /readme.html
Disallow: /refer/
Sitemap: https://你的域名.com/post-sitemap.xml
Sitemap: https://你的域名.com/page-sitemap.xml
这个版本做了三件事:
- 明确允许蜘蛛爬取上传的图片和文件(这对产品图收录很重要)
- 禁止爬后台、readme文件(暴露版本信息有安全风险)、跳转链接目录
- 提供两个网站地图,一个管文章,一个管页面
一个必须避开的坑: 很多“优化大师”让你禁止蜘蛛爬分类页和标签页。千万别信。百度官方明确反对这种做法。分类和标签页是蜘蛛理解你网站结构的通道,封了它们,你的新产品更难被发现。
怎么动手改?三个路子
路子一:用SEO插件改(最推荐,不出错)
大部分独立站的SEO插件都自带robots编辑器。你不需要懂代码,在后台找到“工具”或“文件编辑器”选项,打开“启用自定义robots”开关,然后像填表格一样添加规则就行。
好处是:它会实时检查语法错误。你写错了,它当场报错,不会让蜘蛛白跑一趟。
路子二:用代码插件改
有些专门管理代码片段的插件也带这个功能。安装后,在设置里找到“文件编辑器”,切换到robots.txt标签页,直接粘贴你准备好的代码。
注意:这种插件是在系统默认规则之上叠加你的规则,不是完全替换。如果你的服务器根目录已经有一个物理的robots.txt文件,需要先删掉它,插件才能生效。
路子三:用FTP或主机文件管理器改(适合懂技术的老板)
通过FTP连上服务器,在网站根目录(一般是public_html或www文件夹)里找到robots.txt文件。没有就自己新建一个,用记事本打开,把上面的代码粘贴进去,保存上传。
操作前一定先下载一份备份。万一手滑写错了,还能恢复。
改完之后怎么验证?
改了不等于完事。你必须确认百度读到了你写的内容。
登录百度搜索资源平台(或者谷歌Search Console),找到“抓取”或“设置”相关的报告。里面会有一个专门的robots.txt检测页面。
它会显示百度最后一次抓取你的robots文件的时间,并标出有没有语法错误。如果你刚刚改完,不用急,百度通常一天内会重新抓取一次。
重要场景必须复查:
- 新装了一个会生成前端目录的插件后
- 修改了网址结构(比如从动态链接改成静态链接)
- 从测试站迁移到正式站之后
每次花两分钟看一眼,能避免蜘蛛被莫名其妙地拦在门外。
搞清楚两个容易混淆的概念
robots.txt 和 noindex 标签有什么区别?
很多老板搞混,结果该拦的没拦住,不该拦的拦死了。
- robots.txt:管的是“蜘蛛能不能进来”。你说“不许进”,蜘蛛就不来。但注意,如果别的网站已经链接了你的这个页面,百度仍然可能把它收录进索引,只是没法抓取内容。
- noindex标签:管的是“进来之后,要不要把这个页面放进搜索结果”。蜘蛛可以进来,但看完之后不展示给用户。
实际怎么用?
- 后台目录、插件文件夹、测试环境 → 用robots.txt禁止抓取
- 某些你不想展示但用户需要访问的页面(比如订单确认页、筛选结果页) → 用noindex标签
一个常见的错误操作
有人觉得,把整个网站的所有分类、标签、归档页都封了,蜘蛛就能集中精力爬产品页了。
这个想法是错的。
百度靠分类和标签来理解你网站的主题结构。你把路标都拆了,蜘蛛就搞不清你的产品属于哪个类别,甚至可能认为你的网站结构混乱,降低对你的评价。
正确做法: 只封掉那些确实不需要被搜索到的内部文件——后台、插件、主题、readme文件。所有对用户有价值的内容,包括分类页,都让蜘蛛正常访问。
最后说一句
robots.txt不是安全工具。它是公开的,任何人都能通过你的域名/robots.txt看到你禁止了哪些目录。所以别指望用它来隐藏商业机密。
它的真正作用,是帮百度把有限的抓取精力,花在你最想被收录的那些页面上。写对了,收录速度能快一大截;写错了,你花几万块做的产品页,可能永远躺在“未收录”的列表里。
微信扫码