你花了几万块做的独立站,百度就是不来收录,怎么回事?
打开网站一看,产品列表页后面挂着一长串“?color=red&size=l&sort=price”,点一下筛选条件,网址就变一次。百度蜘蛛每次来,看到的都是新面孔,到底该抓哪个版本?它干脆哪个都不抓了。
这不是技术问题,是钱的问题。你的网站正在被自己造的重复页面拖垮。
什么是URL参数,它怎么坑你的
URL参数就是网址问号后面那串东西,比如:
https://你的网站.com/商品分类?颜色=红&尺码=L
问号之后的部分就是参数。它让同一个页面可以根据条件展示不同内容,不需要为每个组合单独做一个页面。
但问题来了:“?颜色=红&尺码=L”和“?尺码=L&颜色=红”,在百度眼里是两个完全不同的网址。
你明明只有100个商品,却因为筛选、排序、翻页的组合,生成了几千个网址。百度蜘蛛的精力是有限的,它花大量时间爬这些几乎一样的页面,就没空去爬你的首页、关于我们、案例展示这些真正重要的页面。
先算一笔账,看看你亏了多少
假设你的网站有:
- 50个商品
- 5种颜色筛选
- 4种尺码筛选
- 3种排序方式
- 10页翻页
理论网址数:50×5×4×3×10 = 30000个
你的核心页面只有50个产品页+10个栏目页。剩下的近3万个全是参数生成的重复页面。
百度每天分给你的抓取额度是固定的。它花80%的力气爬了2.4万个垃圾页面,你的核心页面只能分到20%的额度。排名能好吗?
怎么判断你的网站有没有被参数坑了
做两个自查:
第一个,搜你的品牌名+核心产品,看收录了多少页面。 如果百度显示收录了几万个结果,但你的实际产品只有几百个,那就是参数页面被大量收录了。
第二个,用百度搜索资源平台的抓取异常工具,看看有没有大量“?xxx=xxx”的网址在报错。 如果有,说明蜘蛛一直在爬这些参数页面,而且很多是重复的。
五步搞定URL参数,让百度只抓你想要的页面
第一步:给所有带参数的页面加上canonical标签
这是最核心的一步。canonical标签就是告诉百度:“别看这个带参数的版本,我真正的页面是这个干净的版本。”
比如你的产品页是:https://你的网站.com/运动鞋
用户筛选颜色后变成:https://你的网站.com/运动鞋?颜色=红
你需要在筛选页的头部加上:<link rel="canonical" href="https://你的网站.com/运动鞋" />
这样百度就知道,所有带参数的版本都是次要的,真正的页面只有一个。
找你的程序员,半天就能搞定。大部分建站系统都有插件或设置项,直接勾选就能自动生成。
第二步:用robots.txt拦住垃圾参数
有些参数是纯粹用于跟踪的,比如微信分享带回来的?from=timeline,或者百度统计的?hmsr=xxx。这些参数对内容没有任何影响,直接让蜘蛛别碰。
在robots.txt里加上:
Disallow: /*?from=
Disallow: /*?hmsr=
Disallow: /*?sort=
注意:别拦得太狠。有些参数是真的改变内容的,比如?分类=男鞋,这种需要保留。
第三步:内部链接全部用干净版本
你网站上的导航、推荐位、相关产品链接,全部指向不带参数的网址。
很多老板的链接是直接复制浏览器地址栏的,结果链接里带着一堆参数。长期下来,百度看到的全是参数页面,干净页面反而没有内部链接支持。
让程序员检查一次全站的内部链接,把参数去掉。这是免费的事,但效果立竿见影。
第四步:别用参数做地域跳转
有些老板为了区分不同地区的客户,用参数做跳转,比如:https://你的网站.com/?地区=北京
这种做法百度明确说不推荐。正确做法是用子目录或子域名:
https://你的网站.com/beijing/https://bj.你的网站.com/
然后在页面头部用hreflang标签告诉百度哪个版本对应哪个地区。
第五步:定期检查,别让它死灰复燃
每两个月用百度搜索资源平台的抓取报告看一眼。如果发现又冒出了新的参数网址,说明程序员新加的功能或者新装的插件又生成了参数。
这时候及时处理,别等累积到几万个再动手。
一个真实的案例
有个卖家具的老板,做了个独立站,产品就80款。结果百度收录了12万个页面,大部分都是“?page=2&sort=price&category=沙发”这种参数页面。
他的首页和产品详情页排名都很差,因为百度根本不知道哪个是主页面。
按上面五步处理完,收录从12万降到2000多,三个月后核心关键词的排名从第5页跑到了第2页。他没花一分钱推广费。
总结一下你该干什么
- 今天就去查你的网站收录了多少页面,跟实际产品数对比
- 找程序员加上canonical标签,这是必须做的
- 在robots.txt里拦住跟踪类的参数
- 检查全站内部链接,去掉参数
- 每两个月复查一次
URL参数不是什么高深技术,但处理不好,你投在网站上的每一分钱都在打水漂。百度不是不认你的网站,是你的网站自己把路堵死了。
微信扫码