来晚了,采集标签可以支持顺序提取,标签能按顺序输出0,1,2,3。。。n.
发布的文章页网址和标题能收集起来,方便插入文章页做连接,建议看虫虫的一些功能,整合下,火车头是最万能的。
在内容标签那加上一个该内容采集结果要大于多少字节,
现在有时源站问题或规则原因仅采集几个字或几个<br><p>
强烈建议:采集支持使用动态cookie的网站!
回复 7# 孤魂
回复 7# 孤魂
强烈建议支持动态cookie。
数字校园里的文章,通过统一身份认证单点登录后显示文章列表页,登录的时候是用的动态cookies,用火车获取的cookie有两部分,JSESSIONID=随机值;JSESSIONIDSSO=随机值,每次登录都不一样。有时间限制,在限制时间内能采集成功,失效后就无法采集了,必须重新获取cookie值,才能再采集,挺麻烦,不知这个有没有好的解决办法呢!!!
强烈建议可以自由控制标题和内容的采集字数,早点出来,期待
希望火车能增加更强大的功能吧,身边不少搞采集的都跑到隔壁那两家去了,郁闷
学习,,了解下!!!!