你的独立站,是不是越做越重?
一个卖女装的老板跟我抱怨,说网站上了几千个商品,每天百度也来抓,但就是没几个自然搜索流量。他让我一看后台,好家伙,同一个商品,因为选了不同颜色、不同尺码,生成了几十个网址。比如 yoursite.com/dress?color=red 和 yoursite.com/dress?color=blue。百度爬虫来了,光这几个变种网址就够它忙活半天,根本没时间去抓你真正重要的首页和分类页。
这就是典型的网址参数(URL参数)用错了,把搜索引擎的“预算”全浪费了。
什么是网址参数?一句话说清楚
网址参数就是网址问号后面那一串东西。
比如 yoursite.com/shoes?category=运动鞋&size=42,问号后面的 category=运动鞋 和 size=42 就是参数。它们的作用是让同一个页面能根据用户的选择,展示不同的内容,比如筛选、排序、翻页。
这东西本身是工具,用好了方便用户,用砸了就是给自己挖坑。
你的网站正在被“参数”掏空吗?
先别急着学怎么用,先判断你网站有没有被网址参数搞出内伤。下面这几个症状,中两条就得赶紧治。
症状一:大量相似页面,百度不知道该推哪个
你一个宝贝页面 yoursite.com/bag,因为用户点了“按价格排序”和“按销量排序”,生成了 yoursite.com/bag?sort=price 和 yoursite.com/bag?sort=sales。内容几乎一样,只是顺序不同。百度看到这几个网址,会以为你有好几个差不多的页面。它不知道该把哪个排到搜索结果里,结果可能一个都不给好排名。
症状二:爬虫累死,好内容没机会被看见
百度每天分给你网站的抓取额度是有限的。如果你的网站生成了成千上万个带参数的垃圾网址(比如各种筛选组合),爬虫一进来就被这些网址淹没了。它以为你的网站全是这些没什么价值的变种,就没精力去抓你真正用心写的产品详情页和品牌故事了。
症状三:内部链接权重分散
你辛辛苦苦在其他平台发外链,结果链接都是指向带参数的版本。比如你发了一条推广,链接是 yoursite.com/product?from=wechat。这个链接的权重很难集中到你那个干净的产品页上,等于力气使在了棉花上。
怎么治?五步走,让搜索引擎爱上你的网站
第一步:给所有带参数的页面贴上“我是冒牌货”的标签
这是最核心的一步。你需要让你的技术人员,在所有带参数的页面的HTML代码的 <head> 部分,加上一行代码。这行代码就是告诉百度:“别看这个带参数的页面,我真正的主页是这个干净的版本。”
比如,你的产品页 yoursite.com/bag 生成了 yoursite.com/bag?color=black,那在这个带参数的页面里,就加上:
<link rel="canonical" href="https://www.yoursite.com/bag" />
这招叫“标定权威页面”,是解决参数问题最直接有效的办法。尤其是做电商、房产、招聘这类需要大量筛选的网站,这个标签必须用上。
第二步:在 robots.txt 里设卡,把爬虫引向正路
如果你发现网站里有些参数生成的内容毫无价值,比如一些排序参数、或者你已经废弃的追踪参数,直接在你的网站根目录下的 robots.txt 文件里,告诉百度不要抓这些网址。
比如你发现所有带 ?sort= 的网址都是垃圾,就加上这句:
User-agent: *
Disallow: /*?sort=
这样百度爬虫就不会再去碰那些网址,把力气省下来抓你的核心内容。
第三步:内部链接,只连“干净”的网址
你网站内部的所有链接,比如导航栏、推荐商品、相关文章,一定要指向那个不带参数的、最简洁的版本。千万别偷懒,直接复制浏览器地址栏里那个带参数的网址。
你自己内部的链接,就是给百度的“投票”。你投给哪个版本,百度就认为哪个版本最重要。
第四步:别用参数来做多语言或多地区
很多老板为了省事,用 yoursite.com?lang=zh 这样的参数来做中英文切换。千万不要。正确的做法是用独立的子目录或者子域名。比如中文版用 yoursite.cn 或者 yoursite.com/zh/。这样对用户友好,搜索引擎也能更清楚地知道不同版本该给谁看。
第五步:给网站做“体检”时,把参数排除掉
当你用工具分析网站技术问题时,先把这些带参数的网址排除在外。不然你的体检报告会被这些“假数据”淹没,根本看不到真正的问题。等你把核心问题修好了,再考虑要不要专门检查一下参数相关的页面。
一个你可能会忽略的细节:参数的大小写和顺序
记住,在大部分系统里,?Color=Red 和 ?color=red 会被当成两个完全不同的网址。?size=9&color=blue 和 ?color=blue&size=9 也会被当成不同的网址。
这就是在制造重复内容。所以,在你的技术团队开发时,一定要统一参数的大小写和顺序。现在的建站系统一般会自动处理,但如果你是自己写代码或者用比较老的系统,一定要盯紧这个。
最后说一句
网址参数本身不是敌人,懒和乱才是。你花点时间把这些整理清楚,百度爬虫就能更高效地抓取你的好内容,你的自然搜索流量才有可能真正涨起来。别让你的独立站,死在了这些看不见的细节上。
微信扫码