aquan112 发表于 2011-7-11 13:41:19

采集时遇到的问题

采集地址100条,采集内容采集了50条,另外50条要换个规则,改了规则,再采集内容,1条也采集不到,这是为什么?

采集过程是不是这样的:
第一步:采集了100条地址,数据库里标识应该是未采集内容
第二步:采集内容50条,数据库里应该是50条标识为采集,另50条为未采集;
第三步:修改内容采集规则,再把剩下的50条内容也采集到数据库里

难道不是这样的吗?

303718 发表于 2011-7-11 19:48:49

因为你采了站点地址库有地址了.地址一重复就采不了了.

aquan112 发表于 2011-7-12 08:27:12

照你说的,地址已经有了,那我也是直接采集内容的呀,第一步采集了50条内容(对应50条地址),那还有50条地址的内容应该是未采集状态吧,那我第2次再采集那些未采集的内容,操作错了?

通常采集几千条信息以上的,规则肯定要变过的,因为被采集的网站也在改版的呀,采集标签什么的肯定要换一下的

我是这么理解的,比如先采集10000条URL,再采集内容,第一次如果采集到2000条内容,那么查看没有采集到的URL,修改内容采集规则,再从8000条里采集,依次来推,把所有URL的内容采集完,如果火车不是这样的,那我希望有这样的功能

aquan112 发表于 2011-7-12 08:38:42

刚试了一下,的确火车把不符合内容采集规则的记录删除了,其实火车只要再增加一个内容采集的字段就可以,比如,URL采集好时,内容采集字段标识为0,该条URL内容采集成功,标识为1,不成功或未采集仍为0,这样也不影响入库,入库只要判断内容采集为1的好了

ydab 发表于 2011-7-12 09:13:40

采集规则 也还是要先看看网站每个页面的源码 ,有些网站 对于不同的会员 所指向的路径也不一样
必有有些是普通内容,有些是vip内容,这些可能都存在的 ,所以 你根据需要 采集就可以,做到100%采集到,难度还是比较大呵呵个人观点,仅供参考。

huinoong 发表于 2011-7-12 16:05:50

新人。。多看看。。支持下~~
页: [1]
查看完整版本: 采集时遇到的问题