火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 5021|回复: 5

采集列表页中希望能多几个和[缩略图]一样功能的标签,并且允许对标签进行处理

[复制链接]
发表于 2008-12-4 15:07:11 | 显示全部楼层 |阅读模式

部分网站在分类列表中增加了文章的好多参数,但是在文章却没有这些参数。

按照现在的采集方法就不能完整的采集到所有信息。

例如:
list.htm中内容如下:

1.【此处为本文章缩略图】测试文章一 来源:(新浪) 发布:2008.11.24 14:51 点击:68
2.【此处为本文章缩略图】测试文章二 来源:(搜狐) 发布:2008.11.24 14:00 点击 29
。。。

从分类列表页中采集到 文章地址、缩略图地址

文章页内容如下:
标题:测试文章一
内容:这里是测试内容。。。。

在文章页面中只能采集到:标题、内容

最终将里表中采集到的信息和内容页中采集到的信息合起来以后的信息为:文章地址、缩略图地址、标题、内容


如果我想实现如下功能请问该怎么办?

从列表页中采集到:文章地址、缩略图地址、来源、发布日期
从内容页中采集到:标题、内容
最终采集到的所有效果是:文章地址、缩略图地址、来源、发布日期、标题、内容

如果我想将列表页中采集到的部分信息再进行二次处理该怎么办?

例如我想将列表页中采集到的时间变为unix时间戳记.
又例如我想将列表页的某个标签进行判断,然后进行处理或替换改怎么办。
 楼主| 发表于 2008-12-4 15:07:38 | 显示全部楼层
目前编辑任务中:手写连接规则选项右边有:[参数][缩略图]
传值到第二步的时候只有
[地址]:http://www.test.com/news/001.html[缩略图]:http://www.test.com/upload/001.jpg

改进后:

希望将缩略图取消,然后在正则中能加入N个[参数],但是可以将这N个参数取值传值到第二步,如:
[地址]:http://www.test.com/news/001.html[参数1]:[参数2]:2008-12-04 15:12[参数3]:新浪[参数4]:68

进入第2步后,设置的标签中可以加入传过来的上面的参数
比如
加入标签:缩略图,然后设置为[参数1]
加入标签:修改时间,然后设置为[参数2],还可以对[参数2]进行处理,比如将时间格式转换为unix时间戳记,这些判断等也可以用载入的php文件来进行处理
加入标签:来源,然后设置为[参数3]
加入标签:点击,然后设置为[参数4]

加入标签:标题,设置采集规则。。。(这些和现在的一样,就不多说了)

[ 本帖最后由 我心 于 2008-12-4 15:25 编辑 ]
发表于 2008-12-4 15:18:33 | 显示全部楼层
嗯,是少了点,这边我提交一下.
 楼主| 发表于 2008-12-4 15:31:28 | 显示全部楼层
呵呵,编辑第二个帖子的时候管理员就回复了,效率真高,希望火车头做的更好。

昨天研究到这些功能的时候,花了几个小时将phpcms的spider模块扣下来单独运行了,发现功能比现在新版的火车头功能少多了,所以又回头来使用火车头了。

不过使用的时候发现我上面发现的问题没有解决,看是暂时还是用不了了。

要是php程序的话我多花点时间自己就解决了,但是应用程序就不太懂了,只能等官方来解决了。

上面是我的一些建议解决办法,希望对官方有点帮助。
发表于 2010-8-23 22:16:01 | 显示全部楼层
列表页标签怎么用的呀,,列表页的内容我传不过去呀~
发表于 2016-2-8 22:52:50 | 显示全部楼层
爪,以后学习下。。
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2025-9-6 16:32

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表