火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 4419|回复: 2

对注释语句的处理有问题。

[复制链接]
发表于 2007-5-10 17:23:32 | 显示全部楼层 |阅读模式
发现火车头会自动忽略部分源代码,从而容易造成过滤失效的情况频繁发生。以单个页面为例,采集:http://news.xinhuanet.com/health/2007-05/07/content_6066069.htm

内容开头:<div id="Content">
内容结尾:</div>

本应该得到的结果是:

<font id="Zoom">
              <P>    新华网北京5月7日电(记者王龙琴)5月8日是“世界红十字日”,今年的主题为“携手为人道”。
<P>    第一次世界大战后,鉴于战争给各国人民带来的巨大痛苦,捷克斯洛伐克红十字会首先倡议每年举行为期3天的“红十字休战日”活动,大力弘扬红十字会的人道思想,同时结合红十字会业务开展全国性的卫生、救济、<table align="left" border=0 cellPadding=3><tr><td> <!--广告内容开始--><object classid="clsid:D27CDB6E-AE6D-11cf-96B8-444553540000" codebase="http://download.macromedia.com/pub/shockwave/cabs/flash/swflash.cab#version=5,0,0,0" width="360" height="300"><param name=movie value="http://imgs.xinhuanet.com/swf/xinhuavideo20070428.swf">
<param name=quality value=high>
<embed src="http://imgs.xinhuanet.com/swf/xinhuavideo20070428.swf" quality=high pluginspage="http://www.macromedia.com/shockwave/download/index.cgi?P1_Prod_Version=ShockwaveFlash" type="application/x-shockwave-flash" width="360" height="300">
</embed>
</object> <!--广告内容结束--></td></tr></table>儿童福利等方面的宣传活动。捷克斯洛伐克红十字会的这一倡议和做法受到了国际红十字界的普遍赞赏和支持。
<;P>    1921年,在瑞士日内瓦召开的第十届国际红十字大会通过决议,向各国红十字会推荐捷克斯洛伐克红十字会组织“红十字休战日”的做法。
<P>    为纪念国际红十字组织创始人亨利·杜南为倡导人道主义精神而作出的不懈努力,红十字会协会在1948年召开的执委会会议上正式建议,各国红十字会应尽量选择亨利·杜南的生日5月8日作为世界红十字日,各国红十字会可视本国具体情况,组织相应的活动。同年,红十字会协会第20次理事会会议批准了执委会的建议,正式确定每年的5月8日为世界红十字日。
<P>    从1962年开始,世界红十字日每年都有一个主题,以便国际社会能围绕主题开展活动。红十字会与红新月会国际联合会将“携手为人道”定为今年的主题,呼吁全世界以人道主义的名义通力合作,共同对抗自然灾害、疾病、贫困和歧视。
<P>    中国红十字会成立于1904年,是红十字会与红新月会国际联合会的成员。多年来,中国红十字会一直从事救灾、群众性卫生救护、扶贫济困等活动,并积极参加人道主义救援活动。</P>
              </font>

结果火车头自作主张,把红色部分自动删除了。这个问题从3.0的时候我就察觉到了,感觉上火车头会自动判断一些标签去除,而这个判断是存在缺陷的,所以就有了我演示的这种情况。

问题是这种问题带来的后果是很麻烦的,比如,此时再指定排除“</object>”是没有任何效果的,这就给实际操作带来了无法逾越的障碍。

不知道是不是有其他方法可以绕开这个问题。
发表于 2007-5-10 21:31:18 | 显示全部楼层
我的确排除了<!--  -->是否整行都排除了我在新版中再做一个测试
发表于 2011-7-11 11:43:32 | 显示全部楼层
<a href="space.php?uid=112772" target="_blank" id="userinfo15120234" class="dropmenu"   <!--onmouseover="showMenu(this.id)"--> >[参数]</a></cite>


这个采不了啊..是不是真的把  注释后的内容排除  ?
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-24 00:13

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表