简明现代魔法 -> 搜索引擎优化SEO -> 如何防止网站内容被采集

如何防止网站内容被采集

2010-03-01

采集就是使用程序通过自动化操作复制数据。

首先说明,只要是能让浏览器访问的,就没有不能采集的。但是可以通过一定的手段让采集变得非常麻烦,进而在大量数据的情况下延迟采集完成时间,加大采集难度。

建站后为了充实网站的内容,不断地采集内容,以获取更大的流量,为了网站创造最大的利益。从来都不会理会采集来的信息是否完整,是否便于用户阅读。采集功能当真是一无是处?采集功能的出现,为很多站长节省了宝贵的时间,让他们拥有更多的时间去做更多的事情;采集来的信息也可以方便网站访客。

为什么会出现这样的现象?现在采集器泛滥,很多CMS都有相应的采集功能;而防止采集有效的方法确是少得可怜。防采集保护的并不仅仅是网站内容,也保护了站长的热情,站长的劳动成果。

很多防采集方法在施行的时候需要考虑是否影响搜索引擎对网站的抓取,所以先来分析下一般采集器和搜索引擎爬虫采集有何不同。

相同点:

不同点:

搜索引擎爬虫先忽略整个网页源码脚本和样式以及html标签代码,然后对剩下的文字部分进行切词语法句法分析等一系列的复杂处理。而采集器一般是通过 html标签特点来抓取需要的数据,在制作采集规则时需要填写目标内容的开始标志何结束标志,这样就定位了所需要的内容;或者采用对特定网页制作特定的正则表达式,来筛选出需要的内容。无论是利用开始结束标志还是正则表达式,都会涉及到html标签(网页结构分析)。

然后再来提出一些防采集方法

如果你把三种方法全部加上,我想一定能让想采集的人头疼半天而放弃的。

总结:

一旦要同时搜索引擎爬虫和采集器,这是很让人无奈的事情,因为搜索引擎第一步就是采集目标网页内容,这跟采集器原理一样,所以很多防止采集的方法同时也阻碍了搜索引擎对网站的收录,无奈,是吧?以上10条建议虽然不能百分之百防采集,但是几种方法一起适用已经拒绝了一大部分采集器了。

随机文章推荐
网站分类


注:如需转载本文,请注明出处(原文链接),谢谢。更多精彩内容,请进入简明现代魔法首页。

进入新博客
喜欢本文,就分享它吧
给我留言
您的名字:
您的邮件:
您的网站:


 

copyright © 2009 简明现代魔法    学习、分享、进步

power by Gonn 感谢所有关心和支持本站的朋友们