|
1。采集深度的增加。采集深度应该由用户自定义。 最好能支持无限级深度探测采集。
这个在程序上并没有什么技术含量可言。我本人也写过无限级深度采集的。希望能够加上这部分功能。
2。增加对flash网站的,jquery加载信息类的网站采集的支持。 现在许多网站为了防采集,都把网站转为flash版。我自己采集的话,也是可以采下来的。
但是需要把flash下载下来。再用硕思转换成fla。接下来还要分析源码,找出其传送数据的地址。总之过程十分复杂。耗费较大的精力。
火车头应该提供可以探测数据流向的功能。这样可以直接获知传送的动态地址。大大缩短采集周期。
3。对纯正则采集的支持。虽然采集比较困难的情况下可以直接使用插件来编写局部采集的规则。但是效率非常低。建议可以开启纯正则采集的模式。
用户可以自选。([\s\S]*? .*?....类似这样的。) |
|