ninqq 发表于 2013-4-13 08:10:01

采集器功能方面的建议【一些细小的功能】

1:标签里面可以使用指定的标签截取的内容作为截取开始/结尾
示例:使用标签[标签:title]截取到:火车头采集器
然后第2个标签可以直接使用[标签:title]作为开始的截取开始/结尾

2:分页采集
自定义链接的格式
在分页组合网址那里强烈建议可以使用[标签:XXX]
这样的标签
希望火车头官方考虑下
已获得更为精确的采集数据

leejunji 发表于 2013-4-15 09:55:19

已经提交技术部了

rq204 发表于 2013-4-16 10:20:37

1.第一个问题,目前的采集器就可以通过提取两次或多次,可以达到同样的效果,不必要标签来作为区域开始结束。
2.如果是可以获取到的标签,并该标签没有做数据处理,那这个需求就没有什么用,因为目前程序就可以做到。如果是处理过的数据,那目前采集器是无法处理的。但这一块,用插件处理是完全没有问题的。

ninqq 发表于 2013-4-17 09:33:37

RE: 采集器功能方面的建议【一些细小的功能】

本帖最后由 ninqq 于 2013-4-17 09:51 编辑

rq204 发表于 2013-4-16 10:20 static/image/common/back.gif
1.第一个问题,目前的采集器就可以通过提取两次或多次,可以达到同样的效果,不必要标签来作为区域开始结束 ...

1:第一个问题可以采集出来么
反正我使用了很多方法都没用
示例页面:http://www.flyluo.com/manga/5952/135652/1.html
琉球武士疯云录 这个是封面页面的标题
第01卷
这个正是阅读页面的需要采集的标题
请问这个可以采集么
阅读页面的章节名字并非固定的
第xx话第xx章 还有各种各样的名字 总之是没有规律的
有的只是一个章节的名称
所以采集这种数据我能想到的只有增加个分页 采集封面列表的标题
把采集的数据作为截取对象
2程序目前*这个标签都是从上面开始计算的
希望考虑增加个从下面开始计算的功能
比如http://www.ccmanhua.com/manhua/975/160766.html
采集这个图片文件夹的目录
var imgurl = "/comic/2/975/001/001.jpg";[注意该数据 并非完全是4个目录 也有5个 6个]
我需要采集的除去名字
/comic/2/975/001/ 这个数据
目前因为*都是从上面开始计算的
所以造成了无法采集

3:关于分页 目前大部分的网站都开始使用这种分页
如果只能使用插件来获取 那明显的非常不方便 毕竟不是所有人都会写插件啊
另外程序貌似也只能使用一个插件= -如果那样的话在需要对采集的数据使用插件进一步处理 貌似也不能使用了

最后希望火车头越来越强大

paradise 发表于 2013-4-17 14:22:36

:Q新手感觉这个东西很麻烦啊,不会啊QAQ

lbjyuer 发表于 2016-2-10 16:40:52

支持火车。。。。历史帖子回顾中。
页: [1]
查看完整版本: 采集器功能方面的建议【一些细小的功能】