hcl007 发表于 2011-4-27 15:01:36

[采集网址] 出现网址严重漏采现象 bug提交

本帖最后由 hcl007 于 2011-4-27 17:40 编辑

版本:2010SP3企业版释放:2011-04-15
环境:WIN7,2g内存
BUG描述:[采集网址] 出现网址严重漏采现象
重现:

采集http://www.php100.com/html/webkaifa/database/Mysql/list_36_1.html地址下的网址时,很多网址漏菜, 起初以为是网速问题,反复采集几次,漏采的网址都是一样的.

我将目标列表页面源代码拷回至本地环境,反复修改调整列表页代码,然后做采集测试, 最后! 我确认在 A 标签的属性值中如果存在<b>标签,网址是采集不到的.

如下格式的A标签,采集器采不到网址:
<a title='<b>标题条白</b>' href='http://www.ph.com/html/7264.html'><b>test</b></a>

问题就出在这个title属性值中有这个标签<b>! 下边这个就可以被采集到
<a title='标题条白' href='http://www.ph.com/html/7264.html'><b>test</b></a>


本人扣扣: 1088444

这是我的采集规则:




hcl007 发表于 2011-4-27 15:50:19

本帖最后由 hcl007 于 2011-4-27 17:41 编辑

发表评论要谨慎. 我顶

hcl007 发表于 2011-4-27 16:11:03

本帖最后由 hcl007 于 2011-4-27 17:18 编辑

这个列表都是20条的

303718 发表于 2011-4-27 16:58:10

很明显你的规则有问题。title='标题白条'有这个的当然只能采到一条了。

hcl007 发表于 2011-4-27 17:19:40

本帖最后由 hcl007 于 2011-4-27 17:30 编辑

回复 4# 303718


哥哥,你不要妄加评论好不好?

麻烦你看看清楚我的规则再说话好不好?

采集的目标是个列表页,出现问题的是第一步采集网址的时候.

303718 发表于 2011-4-27 19:49:31

我无语了,看图说话了。

303718 发表于 2011-4-27 19:50:30

这回不是软件问题了吧。

hcl007 发表于 2011-4-28 10:34:52

本帖最后由 hcl007 于 2011-4-28 11:13 编辑

这位哥哥,那您说我的规则哪有问题呀?

请问您的软件版本,系统环境 又是什么样?

我的如果有问题, 问题在哪里? 我脚本和图片都传了, 您别光发个你采成功的图给我看. 那也解决不了问题呀?

hcl007 发表于 2011-4-28 10:39:26

还有,我的采集规则里边肯定是没有涉及到 title='标题白条' 我都没填过这东西,,,

hcl007 发表于 2011-4-28 10:42:14

我列举的例子,说的是,采集网址时, 列表页里边源代码中包含的 A标记上有title='标题白条'这东西的网址 会采集不到.

我不知道你的规则怎么设置的, 列表页的规则除了能填写个网址样式,再加上必须包含,和排除,还有个开始个结束位置,我不知道什么地方还能设置什么内容.

你能顺利采到,我服,我佩服....但是,至少 , 我实在找不到还有什么地方可以调整我的采集规则.

请不吝赐教!
页: [1] 2
查看完整版本: [采集网址] 出现网址严重漏采现象 bug提交