复制内容就是那些完全相同或者非常类似,并且出现在多个URL的内容。产生复制内容的原因可能不止是抄袭,还有可能是因为旧的网页与新的网页同时存在,设置了RSS自动生成网页内容,实质内容太少或者产品说明重复之类的,大量的重复内容对于SEO网站内容页优化是十分有害的。
检查是否存在复制版本的方法很简单,我们只要将正文部分的一段话用双引号标注出来,然后在搜索引擎进行搜索,就可以看到完全相同的内容出现在不同的页面上,一般来说,完整出现一整句话重复是非常少见的。
搜索引擎往往并不会像SEO人员们认为的那样,因为网站有少量的重复内容就对网站进行惩罚,或者是降低网站权重,搜索引擎要做的事情其实就是从多个页面中挑选出尽可能原创的版本,或者是优化的最好的版本,而其他的就会被排除在搜索结果之外或者是很靠后的排名。当然,在众多的版本中,搜索引擎有时也很难判断出哪个是真正原创的,而大网站带来的高权重也会让判断出现问题,搜索引擎可能把一些转载自小网站的内容看作是大网站的原创。
除了与其他网站内容重复以外,自身网站的内容重复也会带来问题,不管你搜索引擎判断这些内容哪一个是重复的,都会有很多页面被忽略了,这就浪费了网站管理人员的时间和精力。而且这些重复内容会分散网站自身的权重,占用了搜索引擎抓取的机会,使得其他更有价值的页面得不到收录,最为严重的情况就是,搜索引擎认为页面上存在大量的重复内容,网站的价值较低,从而对网站进行惩罚。
想要避免非抄袭带来的重复内容问题,最好的办法就是将所有的内部链接统一,一篇文章对应一个URL,对于那些自己并不想被收录的内容,一方面可以用robots文件禁止抓取,另一方面也可以用noindex meta robots等标签禁止索引。
还有一种解决复制内容的方法,那就是使用canonical标签,这个标签可以用于哪些因为网址规范化所引起的肤质问题。如果网站存在很多只有细节不同的商品,可以用canonical标签将权重集中在其中一个型号上,其他的型号即便有各自不同的网址,也不会被搜索引擎当做是重复内容。
对于不同网站带来的抄袭问题就很难解决了,我们可以在页面上加入版权声明,这样可能会有一些在转载时带上原本的链接,还有一个方法就是一直进行原创,长期积累下来网站权重也会慢慢增加,如果被大量抄袭,也可以使用法律手段维权。