15 12
发新话题
打印

[讨论]关于实现同一页面内重复采集的方式

[讨论]关于实现同一页面内重复采集的方式

V2中关于实现同一页面内重复采集的方式想征求一下大家的意见,头大了,好象不怎么转了

问题描述:


  • 一类是比如 采集论坛回复的形式,回复应全部连接起来形成一个整的内容 共享标题发表出去这样       标题=(文章标题) 内容=(回复1+回复2....)

  • 第二类是比将每个回复都作为一篇文章的内容,这样就有:
         标题1=(文章标题) 内容1=(回复1)
         标题2=(文章标题) 内容2=(回复2)
  • 第三类是如一个页面里有你多条类似文章数据列表,而且内容也在这个页面,麻烦。。
         标题1=(文章标题1) 内容1=(文章内容1)
         标题2=(文章标题2) 内容2=(文章内容2)

      比如这个页面 http://www.21page.net/public/use_tel.asp
      要把国际电话区号 86   匪警台 110这样单独作为一个标题和内容






大家帮想想有什么好的实现方式,只要思路就行,哪样设置起来用户比较容易上手。

TOP

要我说啊,没着必要


为什么呢,毕竟论坛回复的规律性不强,到底每个主题采多少回复呢?这个不好判断,除非你连人家的发贴用户也判断了,不过要是那样的话,我觉得就不是采集器了,方向变了,应该叫论坛搜索了,或什么的, 反正我个人觉得那样作用不大了,要采就找好采的采啊,人啊需求是多样的,满足基本的,牢固核心的,开发高级的就行,呵呵.


其实现在火车头的功力已经很高了,我到是觉得应该巩固核心,排除BUG,稳定,高速,兼容性强,易扩展模块是方向,说实在的我也算混了段时间的人了,可是模块问题一直头疼,假如有一天我可以很轻松的编写出来我见过的网站模块,并能用普通会员身份发文章的话,那我第一个打包裹跟随火车头了.真的,如果真能那样,互连网会因你而改变.



哈哈,罗嗦了一堆,主要是:$太喜欢火车头了.别嫌肉麻啊


认识我就联系我:9316898

TOP

我也使觉得,论坛回复采集难度太大,没什么必要花这个功夫,毕竟好文章不是论坛才有,就是要选好采的来采,简单问题不要复杂化了。还有就是解决同一页面中不同时间采集时,怎样排除已经采集发布过的链接。
天元投资

TOP

我觉得做到第一、二点就足够了,没必要那么复杂,网上内容那么多,找好采的来采不就行了。另外:希望2.0能恢复以前的手工添加标题的功能,因为有些CMS不能无限分类,手工添加便于内容的归类。

TOP

引用:
是恢复以前的手工添加       标题前缀      这个功能
改模块可以实现啊

TOP

回复 #2 martinzero 的帖子

新手支持的说!模块问题一直头疼!

TOP

呵呵,试验成功!!!!!!!!!!谢谢火车哦!!!!!!!!

TOP

2.0呢,我觉得还是加强登陆模块,以前是用DLL固定的模块,虽然不能自定义,但是那些模块都没有出错过,很好用,现在换了自定义模块,就出现很多错误,包括以前是没有错的,都出错了,如我用过的心雨动网的CMS,本来新年版之前都是好好的,换了1.2后居然出问题,且无法解决的

我觉得火车现在真的已经很强,还有只是一些细节方面的,如,加回导库,导入/导出规则等

另,我想提提,那个探测真实地址好像是没用,有一些下载地址虽是动态的,但很简单,在下载工具里是还原成真实路径的,但火车探不了,还准挂呢

TOP

我发表些看法,首先我们要采集的回帖都是基本上要有实际内容的回帖,通常是采集内容字数较多的,要么就是只需要采集楼主一个人的回帖,因为这个帖子有可能都是楼主发的教程之类,中间会有其他人的评论,通常这些没有意义的评论的字数都是很少,所以,如果能在采集的时候判断多少字以下的回帖不进行采集,给过滤掉;另外如果能设置只采集楼主的帖子及回复,而不采集其他人的回复,那样就更完美了

TOP

同意所有意见...呵
极少数的需要不值得发这么多时间和精力去研究它~~
采,踩,彩,猜,睬

TOP

 15 12
发新话题
Powered by Discuz! 6.0.0  © 2001-2007 Comsenz Technology Ltd
Processed in 0.139040 second(s), 7 queries, Gzip enabled
当前时区 GMT+8, 现在时间是 2008-10-15 04:50 皖ICP备06000549 清除 Cookies - 联系我们 - 火车采集器官方站 - 静态归档