火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 5342|回复: 12

[采集网址] 出现网址严重漏采现象 bug提交

[复制链接]
发表于 2011-4-27 15:01:36 | 显示全部楼层 |阅读模式
本帖最后由 hcl007 于 2011-4-27 17:40 编辑

版本:2010SP3企业版  释放:2011-04-15
环境:WIN7,2g内存
BUG描述:[采集网址] 出现网址严重漏采现象
重现:

采集http://www.php100.com/html/webkaifa/database/Mysql/list_36_1.html地址下的网址时,很多网址漏菜, 起初以为是网速问题,反复采集几次,漏采的网址都是一样的.

我将目标列表页面源代码拷回至本地环境,反复修改调整列表页代码,然后做采集测试, 最后! 我确认在 A 标签的属性值中如果存在<b>标签,网址是采集不到的.

如下格式的A标签,采集器采不到网址:
<a title='<b>标题条白</b>' href='http://www.ph.com/html/7264.html'><b>test</b></a>

问题就出在这个title属性值中有这个标签<b>! 下边这个就可以被采集到
<a title='标题条白' href='http://www.ph.com/html/7264.html'><b>test</b></a>


本人扣扣: 1088444

这是我的采集规则:




本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
 楼主| 发表于 2011-4-27 15:50:19 | 显示全部楼层
本帖最后由 hcl007 于 2011-4-27 17:41 编辑

发表评论要谨慎. 我顶
 楼主| 发表于 2011-4-27 16:11:03 | 显示全部楼层
本帖最后由 hcl007 于 2011-4-27 17:18 编辑

这个列表都是20条的
发表于 2011-4-27 16:58:10 | 显示全部楼层
很明显你的规则有问题。title='标题白条'  有这个的当然只能采到一条了。
 楼主| 发表于 2011-4-27 17:19:40 | 显示全部楼层
本帖最后由 hcl007 于 2011-4-27 17:30 编辑

回复 4# 303718


哥哥,你不要妄加评论好不好?

麻烦你看看清楚我的规则再说话好不好?

采集的目标是个列表页,出现问题的是第一步采集网址的时候.
发表于 2011-4-27 19:49:31 | 显示全部楼层
我无语了,看图说话了。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
发表于 2011-4-27 19:50:30 | 显示全部楼层
这回不是软件问题了吧。
 楼主| 发表于 2011-4-28 10:34:52 | 显示全部楼层

本帖最后由 hcl007 于 2011-4-28 11:13 编辑

这位哥哥,那您说我的规则哪有问题呀?

请问您的软件版本,系统环境 又是什么样?

我的如果有问题, 问题在哪里? 我脚本和图片都传了, 您别光发个你采成功的图给我看. 那也解决不了问题呀?
 楼主| 发表于 2011-4-28 10:39:26 | 显示全部楼层
还有,我的采集规则里边肯定是没有涉及到 title='标题白条' 我都没填过这东西,,,
 楼主| 发表于 2011-4-28 10:42:14 | 显示全部楼层
我列举的例子,说的是,采集网址时, 列表页里边源代码中包含的 A标记上有  title='标题白条'  这东西的网址 会采集不到.

我不知道你的规则怎么设置的, 列表页的规则除了能填写个网址样式,再加上必须包含,和排除,还有个开始个结束位置,我不知道什么地方还能设置什么内容.  

你能顺利采到,我服,我佩服....  但是,至少 , 我实在找不到还有什么地方可以调整我的采集规则.

请不吝赐教!
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-24 00:00

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表