xiangshifu 发表于 2009-5-12 12:50:30

我现在一个需求,不知道能否方便的满足?

采集目标:
采集目标是一系列,多站点论坛的帖子列表。这些帖子可能是discuz或者phpwind, 并且版本号不一致,例如:
http://www.discuz.net/thread-4324124.html      discuz7.0
http://www.discuz1.net/thread-4324124.html   discuz6.0
http://www.phpwind.net/thread-4324124.html   phpwind5.0
http://www.phpwind1.net/thread-4324124.html    phpwind4.0
只需要采集这些帖子一楼的内容,并且存放到数据库中,供其他程序调用、展现
不知道火车头能否比较方便的实现这个功能, 如果需要二次开发,能否大概说明一下处理思路? 烦请管理员回复一下

rq204 发表于 2009-5-12 13:20:28

针对不同站点你可以使用不同的规则来采集,采集完的数据你想怎么处理都可以

xiangshifu 发表于 2009-5-12 16:45:14

问题是,能否自动实现选取采集规则?
比如,我已经知道了以下帖子列表
http://www.discuz.net/thread-4324124.html      
http://www.discuz1.net/thread-4324124.html   
http://www.phpwind.net/thread-4324124.html   
http://www.phpwind1.net/thread-4324124.html   

在手工处理的情况, 针对不同的url,确实可以使用不同的采集规则,但是,在自动处理的情况下,能否自动根据url选取不同的采集规则? 这个是否需要二次开发? 这个很关键,如果需要手工处理,那工作量就大了

xiangshifu 发表于 2009-5-12 22:12:22

烦请管理员再回复一下

chyy 发表于 2009-5-12 22:17:54

火车头应该可以处理
但是不会免费

sushy 发表于 2009-5-13 23:43:42

应该是这样:

1. 每个任务只能针对一个站点下的某个板块
2. 多个站点,如果规则相同,你必须通过不同的规则。当然,你也可以用二级深度采集。在最上面那个框中,将几个网址都填入进去。前提是必须找到共同的采网址和采内容规则。
3. 你可以通过复制任务的方式添加多个任务,然后修改一下目标网址即可。
页: [1]
查看完整版本: 我现在一个需求,不知道能否方便的满足?