举报
原帖由 speculator 于 2007-5-14 16:14 发表 比如采集一篇普通文章,我们需要保留的html标记通常是<p(*)> <br(*)> <img(*)>,有时可能会保留<font(*)><b><strong>,其余的都可以去掉。 所以,建议火车头下一版本推出 ...
关于html标签排除和标签:时间 1.关于--HTML标签排除 现在的html标签排除,虽然能排除大部分标签,但采集有时往往有自己想不到的标签没排除影响采集的整体内容。 我建议:建立反排除标签。 建议详细如下:目前,排除所有标签,用 <(*)> 可以解决,往往人们需要其中部分有用的标签,所以设置排除所有标签,但某部分除外: 如:<br...>、<a...>、<a img...><a href...>等等 此部分标签由人们来选择保留。 3.1使用的排除法因为有自己想不到的标签未排除,使用此法就可以轻松搞定。这样的话,就不用再想破脑袋该排除哪些html标签,而且还能解决排除大小写标签的问题,不用再为标签的大小号问题写一长串的排除规则了。 2.关于--标签:时间 标签:时间,希望能设置成在一定范围内随机时间,目前采集的文章时间都太相近,对搜索引擎收录有一定影响。 如果上面的时间不好实现,那么希望将目前的时间格式:2006年6月16日,修改为:2006-06-16。3此项时间使用中文的年月日,用数据库入库,结果数据库日期字段不能识别,成为:0000-00-00。其它的时间格式都没问题。
本版积分规则 发表回复 回帖后跳转到最后一页
|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )
GMT+8, 2026-4-7 23:41
Powered by Discuz! X3.4
Copyright © 2001-2020, Tencent Cloud.