火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 2430|回复: 1

可否增加对html标签及标点符号全角-半角的全局模糊定义

[复制链接]
发表于 2012-8-14 04:04:07 | 显示全部楼层 |阅读模式
1. 在定义采集起始及终止点时,火车好像是精确匹配的。如果其中包含html标签,将出现问题。同一个html标签在同一页面或不同页面可以有不同的写法,如<BR>, <br>, <br/>, <br />。如果一个网站没有严格按照某种格式编码网页的话,采集起来就很困难。在标签定义界面是html标签过滤选项中使用了模糊定义, 建议在全局也增加这种模糊定义的选项。进一步,建议增加忽略大小写的选项(针对外文网站)。

2. 标点符号的全角-半角问题,特别是逗号和引号。如果数据要入库,半角的逗号和引号在很多情况下是有语法含义的。如果在采集的内容中全角-半角混用,一入库,数据就面目全非了。 建议在标签定义界面增加全角-半角切换功能。


发表于 2016-2-10 18:31:52 | 显示全部楼层
和你们一块学习。。。
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-23 03:20

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表