你网站是不是有个毛病:商品筛选项一多,百度就不怎么收录了?或者你明明上了几百个产品,搜索结果里翻来覆去就那几页。
别急着怪服务器,问题很可能出在你的网址上。
你的网址在“生”出无数个自己
你给电商网站加了颜色、尺寸、价格排序这些筛选功能,每点一个选项,网址尾巴上就多一串东西。比如 ?color=red&size=l。这串尾巴叫URL参数。
它的本意是好的,让一个页面能根据参数变出不同内容,省得你给每个颜色、每个尺寸都单独做个页面。
但麻烦也来了。每多一种筛选组合,就多一个网址。你卖100双鞋,筛出“蓝色+42码”、“蓝色+43码”、“红色+42码”……理论上能变出几千个网址。百度派机器人来你家网站“串门”,时间精力就那么多,结果全耗在这些大同小异的筛选页上了。
后果是什么?
- 真正重要的页面,百度没空看。 你的爆款详情页、核心分类页,反而被挤在后面。
- 百度分不清哪个才是正主。 它看到一堆长得差不多的页面,不知道该把哪个排在前面,最后可能一个都不给你好排名。
- 你给自己制造了“内卷”。 不同筛选条件的页面,关键词都是“蓝色运动鞋”,自己跟自己打架,谁也出不了头。
先判断你的参数是“干活”还是“捣乱”
不是所有参数都有害。你得先分清楚两类:
1. 主动参数:改变页面内容
比如 ?category=shoes、?color=blue、?page=2。这些参数一加,页面上显示的东西确实变了。这类参数是网站功能的核心,不能一刀切禁止。
2. 被动参数:不改变内容,只做标记
最常见的就是跟踪代码,比如 ?utm_source=wechat。这类参数加的再多,页面上卖的还是那双鞋。它们纯粹是为了让你知道流量从哪来的。
你的任务:让百度只关注主动参数带来的核心页面,彻底忽略被动参数。
五步走,把网址“打扫”干净
别怕,操作不复杂,找你的技术配合一下,按这个顺序来。
第一步:给所有带参数的页面贴上“正版标签”
这是最关键的一步。在所有带参数的网址的HTML代码头部,加一行标签,告诉百度:“别看这个花里胡哨的筛选页,我真正的页面是这个没参数的。”
<link rel="canonical" href="https://www.yourdomain.com/shoes" />
比如,?color=blue&size=9 这个页面的canonical标签,指向 https://www.yourdomain.com/shoes。这样,百度就把所有筛选页的“好感度”都集中到主页面上了。
第二步:用 robots.txt 把“垃圾参数”关在门外
对于那些会产生无穷无尽组合的参数(比如排序参数 ?sort=asc),直接在 robots.txt 文件里禁止百度爬取。
在文件里加上一行:
Disallow: /*?sort=
意思是:所有带 ?sort= 的网址,百度都不要来。这就省下了大把的爬取精力。
第三步:内部链接,只指向“干净”的网址
你网站内部互相推荐产品、做导航的时候,链接地址一定要用不带参数的标准版。比如你首页要链接到“运动鞋”分类,链接就用 https://www.yourdomain.com/shoes,千万别用 https://www.yourdomain.com/shoes?from=home。
第四步:别用参数做多语言或地区站
如果你有面向不同地区的版本,比如针对广东和针对北京的,不要用 ?region=guangdong。直接用独立的子目录或子域名,比如 https://www.yourdomain.com/gd/。这样百度才能清晰识别,不会搞混。
第五步:定期检查,看百度“串门”都去了哪
登录百度搜索资源平台,看看“抓取诊断”或“抓取异常”报告。如果发现大量带参数的网址被收录,或者抓取配额被这些页面占满,就说明前面的步骤没做到位,赶紧回去补。
算笔账,值不值
一个几百个产品的电商站,如果参数没管好,可能产生几万个无效网址。你花钱买的服务器带宽、你请人做的内容,都浪费在这些“数字垃圾”上了。
花一个下午,让技术按上面的清单改一遍。一个月后你再看,百度收录的核心页面会变多,那些真正能卖货的产品页,才有机会排到前面去。
微信扫码