[采集网址] 出现网址严重漏采现象 bug提交
本帖最后由 hcl007 于 2011-4-27 17:40 编辑版本:2010SP3企业版释放:2011-04-15
环境:WIN7,2g内存
BUG描述:[采集网址] 出现网址严重漏采现象
重现:
采集http://www.php100.com/html/webkaifa/database/Mysql/list_36_1.html地址下的网址时,很多网址漏菜, 起初以为是网速问题,反复采集几次,漏采的网址都是一样的.
我将目标列表页面源代码拷回至本地环境,反复修改调整列表页代码,然后做采集测试, 最后! 我确认在 A 标签的属性值中如果存在<b>标签,网址是采集不到的.
如下格式的A标签,采集器采不到网址:
<a title='<b>标题条白</b>' href='http://www.ph.com/html/7264.html'><b>test</b></a>
问题就出在这个title属性值中有这个标签<b>! 下边这个就可以被采集到
<a title='标题条白' href='http://www.ph.com/html/7264.html'><b>test</b></a>
本人扣扣: 1088444
这是我的采集规则:
本帖最后由 hcl007 于 2011-4-27 17:41 编辑
发表评论要谨慎. 我顶 本帖最后由 hcl007 于 2011-4-27 17:18 编辑
这个列表都是20条的 很明显你的规则有问题。title='标题白条'有这个的当然只能采到一条了。 本帖最后由 hcl007 于 2011-4-27 17:30 编辑
回复 4# 303718
哥哥,你不要妄加评论好不好?
麻烦你看看清楚我的规则再说话好不好?
采集的目标是个列表页,出现问题的是第一步采集网址的时候. 我无语了,看图说话了。
这回不是软件问题了吧。
你
本帖最后由 hcl007 于 2011-4-28 11:13 编辑这位哥哥,那您说我的规则哪有问题呀?
请问您的软件版本,系统环境 又是什么样?
我的如果有问题, 问题在哪里? 我脚本和图片都传了, 您别光发个你采成功的图给我看. 那也解决不了问题呀? 还有,我的采集规则里边肯定是没有涉及到 title='标题白条' 我都没填过这东西,,, 我列举的例子,说的是,采集网址时, 列表页里边源代码中包含的 A标记上有title='标题白条'这东西的网址 会采集不到.
我不知道你的规则怎么设置的, 列表页的规则除了能填写个网址样式,再加上必须包含,和排除,还有个开始个结束位置,我不知道什么地方还能设置什么内容.
你能顺利采到,我服,我佩服....但是,至少 , 我实在找不到还有什么地方可以调整我的采集规则.
请不吝赐教!
页:
[1]
2