复制站点与DeDecms防采集的方法 不指定

郝聪 , 2012/03/26 15:36 , 建站优化 , 评论(54) , 阅读(38993) , Via 本站原创 | |


更多



去年年底,某客户找我帮忙制作了一个企业网站,考虑到网站日后要进行搜索引擎推广,因此,网站在SEO上必须具备搜索引擎友好性,权衡左右,最终我选择了DeDeCMS,这样可以在URL、PageTitle、TextBlock、LinkBlock、Auto Sitemap、Related Article几方面及早进行SEO布局。于是,在栏目规划、布局设计、模板制作阶段,我便将各种SEO元素充分融入整个制作阶段,期望站点上线后,搜索排名权重可以快速积累。特别是在模板代码撰写方面,有效的控制链接输出与导入,尽可能提高内链接的相关性以及关键词匹配的位置,并去除了无用的网页噪音信息,使每类页面主题都特别突出。

果不其然,网站正式发布后,网站收录比例很快达到70%,绝大多数产品终端页被收录,部分资讯页面被收录,更重要的是:行业关键词排名与产品关键词排名进步飞速;整个网站在SEO运转中呈良性发展趋势。客户开始接手网站并正常更新站点内容,按照设定的计划,一切本应该顺利进展。

然而就在近期,网站SEO表现开始下滑,首当其冲的是网页收录数量,在百度统计后台显示的页面索引量与搜索框中site命令返回结果数差别明显,site命令显示只有2个页面被收录,均是首页,带www与不带www的两个版本的首页。除此之外,当资讯被正常更新后,百度很快索引了,短时间内通过site命令可以返回结果,但时间不长即又发现收录失效。综合上述情况,我认为网站已经被百度降权了。

为了找到问题所在,我研究了各个方面的影响因素,结果发现:(1)除了正常更新网站内容外,企业方也在积极运作外链,建设外链本来是好事,但却用错了方式,参与了资源站的链轮;(2)网上惊现模板相同、内容相同、品牌不同的仿制站,而且仿制站在百度收录也是只有首页,与客户网站“惊人的相似”。

1、关于链轮问题,还好我及时发现并制止了这种行为,由于只有几篇产品页参与了链轮,时间不长,应该不至于影响如此之大,何况还是自身资源站点。

2、关于复制站点,已经很少见了,大部分人都会有意识的形成站点内容或者组织形式上的差异化;而客户网站出现这样的SEO症状,恐怕关键就在于仿制站点,当在我看到仿制站的一刻我彻底无语了,除了企业品牌名称不同,网站其他东西我都太清楚了;我很想吐槽,可回头一想现在的互联网不就流行各处抄袭的风气吗,也许习惯了就好,可我TM实在不能忍受的是,模板100%仿制就算了,数据原封不动的采集过去也罢了,拜托,你TMD敢不把99%雷同的站点整体发布出来吗!你TMD搞SEO不知道相似站点啊!你TMD仿站还能把我写的自动更新网站地图文件sitemap.php也能仿制过去!做SEO的伤不起啊

吐槽归吐槽,问题还是需要解决的,采用了几下的办法:

1、调整模板数据调用规则与新内容块布置

新内容块产生将页面主题关键词更分散一些,同时调整数据调用规则,让仿制站点的数据与自身页面数据产生差异性,降低复制网站SEO问题的负面影响。

2、找到防止内容采集的办法

DeDeCMS自身有防采集混淆字符串的功能,但这种防采集的办法对SEO很不利,你总不想让搜索蜘蛛看到网页中有不少隐藏文本吧,而且这些文本会影响蜘蛛对信息块主题的判断,影响关键词排名,其实,DeDeCMS没有根本性的防采集的方法,道高一尺魔高一丈啊,只要你的信息通过页面的方式发布出来,总能找到采集的方法;综合网上收集的信息,我采纳了两种办法,只能放置最初级的采集:

(1)办法一:复制网页正文内容时自动添加版权信息

JavaScript代码
        
  1. <script language="javascript" type="text/javascript">  
  2.     
  3. <!--  
  4.     
  5. document.body.oncopy = function () {  
  6.     
  7. setTimeout( function () {  
  8.     
  9. var text = clipboardData.getData("text");  
  10.     
  11. if (text) {  
  12.     
  13. texttext = text + "\r\n(这里是你的文章版权信息,去掉括号):"+location.href;  
  14.     
  15. clipboardData.setData("text", text);  
  16.     
  17. }  
  18.     
  19. }, 100 )  
  20.     
  21. }  
  22.     
  23. -->  
  24.     
  25. </script>  

将以上代码放置在文章页模板中正文结束后面即可。我测试了下该方法,只针对IE浏览器有效,而Firefox、遨游、Google Chrome均无效。

(2)办法二:使页面代码具有唯一性

一般别人采集的时候都是要获取内容开始的代码和结束的代码,而且要唯一性的,所以填的开始代码大多是:<div class="title">。这样,我们在这个class后面加上文章的ID值,改成这样<div class="title"  id="{dede:field.id/}">,这里{dede:field.id/}在dedecms中是获取当前文章的ID值,那么生成的每一篇文章的ID值都不一样,这里的开始代码也就都不一样了,这样别人就采集不到了,采一次只能采一篇。

我们制作模板的时候在在body标记附近的<div class="abc">修改成<div class="abc {dede:field.id/}">,注意是空格+{dede:field.id/},这样div的class还是没有变,但产生了<div class="abc 文档ID">,这段代码在每篇文章的内文页均是唯一性的,或者在html标记里插入id={dede:field.id/},比如:<div id={dede:field.id/}>与<body id={dede:field.id/}>,这里{dede:field.id/}在dedecms中是获取当前文章的ID值,这样别人就采集不到了,采一次只能采一篇。当然,别人可以使用过滤规则来去掉,但是假如我在所有的class里插入文档ID,或者插入id=文档ID这样的。那他就只能采集整个页面,然后再过滤,使采集变得更加复杂。

缺点:如果插入{dede:field.id/}不够多的话别人可以用过滤规则过滤掉。但是对于一些站群采集软件来说,这一招足以防止他们采集了!

3、升级DeDeCMS至最新版

DeDeCMS旧版有漏洞,很容易被黑,要么就是嵌入各种广告代码,要么就是被无端增加超级多的隐藏链接,所以,务必要升级到最新版。

相关日志
DeDeCMS自定义表单实现字段默认为必填项
DeDeCMS自定义表单提交数据时加入验证码功能
DeDeCMS调用自定义表单内容以及实现分页功能(Datalist运用实例)
DeDeCMS的channel标签支持limit(属性)功能
DeDeCMS获取上级栏目ID及顶级栏目ID
让DeDeCMS的channel标签支持调用栏目描述description及关键词keywords
DeDeCMS调用栏目排序编号(自动递增数字)
DeDeCMS安全设置:更改data目录命名
DedeCMS修改数据库表前缀"_dede"的方法
DeDeCMS调用友情链接的标签
软装配饰 Email
2012/05/29 13:16
呵呵,找了好久,终于找到了
软装配饰 Email
2012/05/22 15:46
高手写的文章啊
怎么样才能长高 Email
2012/05/21 11:06
很是有道理的
薇诗伶去黑眼圈 Email
2012/05/19 16:37
å—¯  æˆ‘正在学习  å¾ˆæœ‰ç”¨
桂芍镇痫片
2012/05/14 00:12
学习了
网站优化 Email
2012/05/06 14:20
楼主做的有些过哦。新站上线前期都是有个考核奖励期的哦
上海化妆学校 Email
2012/05/05 17:11
学买了,看了博主写的感觉受益非浅,一直在关注中。
捕鱼达人单机版 Email
2012/05/02 15:52
复制站点真的很让人恼火
绍兴股票开户 Email
2012/05/01 16:31
好文章,学习学习!
调整型内衣 Email
2012/04/30 19:45
不错啊,我也经常用dedecms建站,没注意这方面呢,学习恩啦
金华SEO博客 Email
2012/04/28 00:36
这个方式是可行的,但对于有心人来说还是防不住的,通过火车头采集的话,这些都是可以进行过滤掉的。最简单的一个方法就是连你的DIV一起采集,然后在标签当中直接将整个DIV全部过滤,只剩下需要的文本内容,这样就可以了。
上海seo Email
2012/04/19 12:53
在不断的学习和进步当中
深圳旅游
2012/04/18 13:02
很好的一篇文章。。
aa69 Email
2012/04/17 15:06
采集可恶啊。
太阳镜时尚秀 Email
2012/04/16 16:21
这个权重高么?
日用品模具 Email
2012/04/14 11:17
机会留给有准备的人,博主,只要你用心经营博客,一定会成功的
电影 Email
2012/04/12 16:27
是这样可以降低很大一部分采集的,而且机器采集的就不能得逞
小怡靓衣 Email
2012/04/11 23:35
这个要了解一下
开槽机 Email
2012/04/09 15:59
这个方法很实用,很多网站都会遇到这样的问题。先收藏了 虽然dede代码我不懂。
网络水军 Email
2012/04/07 15:30
你文很有深度,跟其他人不同,小弟带着我的网络水军推广网站,92推  ç½‘络水军推广,来学习过,希望交往常在,此印留作纪念,我还会回来的。
分页: 2/3 第一页 上页 1 2 3 下页 最后页
发表评论

昵称

网址

电邮

打开HTML 打开UBB 打开表情 隐藏 记住我 [登入] [注册]