iolocoy 发表于 2007-9-4 11:25:02

几个小建议,参考其他采集器的

火车的头,看到几个不错的地方,提供几个建议看看怎么样

一个是附件下载的地方有个附件的时候有个 动态下载的url框,可以写要下载包含那些文件的url,例如包含
downfile.php
music.php
一行一个,包含上面文件名的的附件url才下载,例如downfile.php?file=488326。


第二个就是多项内容的正则匹配
例如   正则1||||||||||||||正则2|||||||||||||||||||||||||||||||||||||||正则3 这样,内容可以由 匹配的1 2 3 项组合起来。

文字表达不太清楚,看看图片,这样如果页面内容分开也可以采集了,还有一个就是采集论坛什么也会比较方便,呵呵,不过这个后来想想可能全部截取了再过滤也可以,但是如果中间垃圾多过滤麻烦的时候这个功能可能比较好。
仅仅提出,也不知道是否实用,比没有好,呵呵
页: [1]
查看完整版本: 几个小建议,参考其他采集器的