15 12
发新话题
打印

[讨论]关于实现同一页面内重复采集的方式

引用:
发现自己说了很多废话,删了,原来2.0的规划是那么的到位
这是我的愚见.
祝火车MM五一开心快乐

[ 本帖最后由 aga 于 2006-4-29 19:09 编辑 ]
感谢火车提供这么好到工具!

TOP

支持下。很喜欢或车。

TOP

第一种就可以了。

TOP

第一个已经可以实现了啊,通过循环采集就能采集回复的贴子并且合并到同搂住的标题中的,不知道我的理解有没有错误。
第二个没必要,回复的内容大都没太多的价值,特别是灌水厉害的论坛……
第三个是个头痛的问题,这个我之前一直试着去采集,不过还没想到办法。关键是这个用的不多。

我个人到觉得2.0的还是先修复bug和完善之前的功能。比如重复采集,这个问题比较严重,有的要重复3遍的,即使可以控制,不过仍然不方便;无故出错提示,这个也经常出现的,有时候出错提示,可事实上仍然可以采集;2.0的特殊地址采集还不完善,这个功能我一直用不好,不知道是版本问题还是我的问题;在2.0发表的时候,修改模块希望可以打开别的页面就像1.2一样。现在2.0的只能察看最后打开的一个页面,这样如果要返回前面查看数据就必须关闭后面打开的页面;有些需要登陆的论坛只能采集到其中的一部分代码,不知道是什么原因,这个问题我用1.2测试也一样;utf8问题,把采集的文章发表到utf8字符的系统总会出现各种问题,用火车采集器自带的文章测试可以,但是采集的内容就是不行,这个我测试过很多utf8  字符的blog程序都是这个问题;
内容合并我倒是很感兴趣,而且这个功能也有一定的实用性。现在很多系统都有文章简介,而简介和网址是在同一个叶面的,跟内容叶面分开,这样用目前的版本似乎没办法实现(当然变相的也能采集);又比如说采集flash,一般flash的简介、缩略图都是跟内容页面分开的,如果能合并就能完整的采集……

最后一个建议是,如果方便把1.2的循环采集改进下。我记得在我刚开始用的时候可以循环采集的。想想好像是那个时候没打1.21的补丁。我是觉得1.2的版本其实也有很大的优势,启动快,站用内存小,采集不重复。

[ 本帖最后由 insun 于 2006-10-1 01:25 编辑 ]

TOP

都被你们说光了...

TOP

 15 12
发新话题
Powered by Discuz! 6.0.0  © 2001-2007 Comsenz Technology Ltd
Processed in 0.277444 second(s), 7 queries, Gzip enabled
当前时区 GMT+8, 现在时间是 2008-9-8 17:45 皖ICP备06000549 清除 Cookies - 联系我们 - 火车采集器官方站 - 静态归档