网站上线三个月,内容也认真写了,百度就是不收录新页面?
你发了一篇精心准备的产品文章,等了一周,搜公司名都找不到。这不是内容的问题,是你网站的“抓取预算”被浪费了。
百度每天派蜘蛛来你网站的次数是有限的。这个额度,就叫抓取预算。如果蜘蛛来了,净看些没用的页面——标签页、作者页、RSS订阅链接、带参数的URL——那你的新产品页、核心服务页,可能等一个月也轮不上被收录。
先算一笔账
假设百度每天来你网站抓取200次。如果其中150次都耗在了“分类归档页”“?utm_source=wechat”这种重复或低价值的链接上,留给真正产品页的只有50次。你一个月发10篇新文章,平均每篇只能分到5次抓取。百度还没看懂你写的是什么,额度就用完了。
反过来说,把这150次浪费省下来,集中到那10篇新文章上,收录速度和排名表现完全是两回事。
怎么判断你的抓取预算有没有问题
打开百度搜索资源平台(以前叫百度站长平台),看“抓取诊断”或“抓取异常”报告。
- 如果大量抓取请求返回的是404页面,说明蜘蛛在空转
- 如果抓取对象大多是tag标签页、作者归档页,说明重点跑偏了
- 如果你发现新内容发布后,要等超过一周才被百度发现,那是明显的预算不足
三个动作,立刻释放抓取预算
第一,关掉没用的RSS feed
你的网站系统会自动生成一堆RSS订阅链接:主博客feed、每个分类的feed、每个标签的feed、评论feed、作者feed。如果你是一个人运营的公司网站,作者feed跟主feed内容完全一样,蜘蛛抓一次就够了。
操作:在SEO插件里找到“RSS feed管理”选项,只保留主feed,其他全部关掉。关掉后记得把原来的链接做301跳转到主feed。
第二,清理带参数的URL
你发文章到微信群,链接后面加了?from=groupmessage。百度会把带这个参数的URL当成一个新页面来抓取。类似的还有?utm_source、?page=、?sort=。
操作:在SEO插件里开启“去除查询参数”功能,把营销追踪参数、排序参数全部屏蔽。只保留搜索结果参数(?s=)这类必要的。
第三,把404页面引到正确的地方
百度蜘蛛如果碰到死链接,会反复尝试。每次尝试都在浪费额度。
操作:在百度资源平台下载“抓取错误”列表,把404的旧链接全部301跳转到对应的新产品页或分类页。比如你以前有个“产品A”页面删除了,就跳转到“产品B”页面。
一个额外动作:提交站点地图
站点地图就是给百度的一张清单,告诉它你网站里哪些页面是重要的、多久更新一次。
操作:生成XML格式的站点地图,提交到百度资源平台。新站尤其需要这一步——你没有外部链接帮百度发现页面,站点地图就是最直接的路径。
为什么小网站也要管这个
你可能会想:我网站总共才几十个页面,需要吗?
需要。因为百度对新站的抓取频率本来就低,可能一天就几十次。如果这几十次还被垃圾页面吃掉一半,你的核心内容就真的没人看了。
哪怕你只有20个产品页,也值得确保蜘蛛每次来,看的都是这20页。
总结一下,你现在就能做的事
- 登录百度资源平台,看抓取统计,确认浪费点
- 关掉不必要的RSS feed和作者归档
- 屏蔽URL中的营销参数
- 把404链接301到有效页面
- 提交站点地图
做完这五步,你的网站抓取效率会明显提升。新内容发布后,被百度收录的时间,能从一两周缩短到两三天。
微信扫码