网站运营
+

最新织梦dedecms采集规则怎么写 采集规则下载大全

作者:乐享网    来源:www.lexiangww.com    阅读:14201

网站运营的都知道,在这个越来越浮躁的社会,越来越多的人期望事情能够越来越轻松,越来越容易。特别是对于瞬息万变的互联网来说,需要时间去仔细琢磨的事情并不适合。


就拿网站运营来说,完全的原创文章虽然对网站优化排名有很好的帮助,但大部分的网站运营的写作能力并不高,再加上题材的限制、时间的规律性,希望完全通过原创及全手工来运营和优化一个网站是很困难的事情,特别是对于一些资讯类网站、商城类网站、视频类网站等此类页面较多、内容更新要求较快的网站来说,无论是内容建设还是外链发布都是个庞大而复杂的任务,靠手工完成无论是时间上还是成本上都不划算。因而,有时候我们需要使用到一些工具的辅助。采集工具就是其中的一种。


DEDECMS采集规则大全,包含各类网站,例如:女性、汽车、体育、文学、明星、笑话、健康等分类,包括新浪网、千龙网、腾讯等多个网站,共180多个采集规则批量打包下载。

提取码:klhx 
 

使用方法:
后台-采集-导入采集规则
部分采集规则截图如下:

部分采集规则截图

 
  目前在网站采集中使用得比较多的采集工具是火车头采集工具以及织梦自身的dede采集工具,采集工具之间的优劣对比网络上有很多,百度一下你就知道,而织梦采集规则的设置网络上也有很多攻略,大抵都差不多,因而本文也不再多加说明,有兴趣的童鞋可以自行搜索看看。今天要跟大家分享的是,在设置织梦采集规则的时候,有哪些注意事项?
 
  一、采集起止代码设置
 
  在织梦采集规则设置中,很重要的一个步骤就是采集起止代码的设置。一般是一小段代码,以“数字/英文+符号”形式为主。代码越短越不容易出错,并需要具有唯一性,以方便机器快速辨别采集的起止位置。在网上的教程中,这段起止代码一般是完整的一段,如[内容],其中,是开始采集位置,[内容]代表需要采集的部分信息,是终止采集位置,很多人会误以为起止代码一定需要是完整的一段,但实际上并非如此。
 
  如下图两种:
 
  织梦采集规则有哪些注意事项?
 
  织梦采集规则有哪些注意事项?
 
  代码的某一部分,或者甚至是夹杂中文的代码也可以作为采集的起止代码,这可以去掉一些网站内容开头与结尾带有网站专有标识。
 
  二、标题采集设置
 
  标题采集很简单,有两种方式,如下图所示:
 
  织梦采集规则有哪些注意事项?
 
  在需要采集的页面点击右键选择“查看源代码”,在打开的页面中使用快捷键Ctrl+F,在出现的搜索栏中输入该采集内容的标题,就能查看到该页面的标题规则,一般为title标签以及H标签,数量在1~4个不等。一般页面会两种标题标签并存。这种情况下,使用H标签会比title标签采集更不容易出错。
 
  需要注意的是,有时候H标签有H1标签H2标签H3标签等,一般只使用H1标签。
 
  三、分页织梦采集规则设置
 
  一些网站由于文章篇幅过长或者希望增加点击率,往往把一篇文章分成几个分页来呈现。这种情况下采集的起止代码就不在同一个页面上,而应该在文章开始页寻找采集开始代码,而在文章结束页寻找终止代码,设置如下:
 
  织梦采集规则有哪些注意事项?
 
  四、几个可能导致采集失败的因素
 
  1、网站隐藏内容禁止采集。这种情况以腾讯新闻为例,腾讯新闻的内容在打开的源代码页面里不会呈现出来,因而也无法判别文章的起止位置,也无法采集到其网站内容。
 
  2、网站采集出错。大多数网站内容在网页以及代码中都正常显示,但当采集到目标网站时却显示出错。这种出错分为几类:
 
  A、标题出错。如下图所示,文章的内容会全部集中到标题上。
 
  织梦采集规则有哪些注意事项?
 
  B、只采集到标题,内容空白。即无法采集到相关的内容。
 
  C、采集终止符失效,采集内容包括了被采集网站上的广告/版权信息/版尾信息等信息。
 
  织梦采集规则有哪些注意事项?
 
  这些都是采集中经常会遇到的问题,了解这些,对于采集以及伪原创都有很大的帮助。虽然在优化上我们并不建议使用采集的方式,但在必要的情况下,了解织梦采集规则,对网站运营还是有一定的好处的。



织梦dedecms网站后台具体操作流程:


登录后台,如下图所示:

(点击采集,然后选择采集节点管理。)

织梦后台图文采集规则
(点击---增加新节点)

织梦后台图文采集规则
(选择内容模型----1,如果采集文章的话,就选“普通文章“.2、如果是图片的话,就选择“图片集”)

织梦后台图文采集规则
新增采集节点:第一步设置基本信息及网址索引页规则(注意事项:1、节点名称自己起名字2、目标页面编码:和采集站的编码要一致3、列表网址获取规则---匹配网址,一般就是其中的一个列表页网址,以下的就按说明操作即可。).

织梦后台图文采集规则
(区域开始的HTML:  这块是填写列表页的开始代码,代码长短无所谓,但是代码一定是要是唯一性, 就是这个代码在整个源代码中是不重复的, 也就是出现过一次的。 

区域结束的HTML:   结束的代码也是一样,也是要唯一性。

)保存,下一步即可

织梦后台图文采集规则
这一步就是【网址获取规则】

                          (测试的列表网址:1、这个就是上一步填写的列表网址,如果上一步没有问题的话,这显示的就是采集的文章标题列表2、如果不是的话就返回上一步重新修改,正确的话就直接下一步。)

织梦后台图文采集规则
这一步就开始采集文章内容了【网页内容获取规则】

                 ( 1、文章标题---匹配规则:<title>[内容]</title> [内容]里一定要是唯一性,就和开始的那一样,这里的文章来源、文章作者、和发布时间,都是要唯一性的。)

织梦后台图文采集规则

(文章内容:1、<title>[内容]</title>, title要替换文章内容前后的唯一性代码,”[内容]“这个不用修改。)

 

 

(这个是常用的规则 你不想要采集页面里的什么内容 你就就把√ 点上  确定就ok了  规则会自动填入上面哪个框框里面)

织梦后台图文采集规则
织梦后台图文采集规则
新增采集节点:测试内容字段设置

 (按照上图的红色字体标注,这里就不文字解释了。如果显示是正常的话,保存。或者保存并采集。)

织梦后台图文采集规则
最后一步了,采集完以后,就可以导出采集的内容了(如图所示)

(选择你想要导出的栏目)

点击”确定“,然后一键更新,就可以了!
 

织梦后台图文采集规则
END
注意事项
采集最主要的就是要注意代码的唯一性,无论是列表,还是内容页,都得要唯一性!

  • 相关文章
  • 热门文章
  • 相关评论

乐享网_一个专注于分享有用信息资源的网站!

  广告商务合作点击这里给我发消息 (注明来意 否则勿扰) 企业邮箱:vip@lexiangww.com

Copyright 2010 - 2020 www.lexiangww.com. All Rights Reserved

特别声明:本站大部分内容由用户上传并发布,版权归原创者所有。乐享网仅提供信息存储服务,并且内容不代表本站的观点和立场。

如有不慎侵害了您的权益,请告知我们将尽快核实处理!

乐享网手机版  工信部备案/许可证号:鄂ICP备16009408号


【电脑版】  【回到顶部】