火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 2765|回复: 2

强烈建议固定格式的数据增加一项功能!

[复制链接]
发表于 2011-10-22 13:26:20 | 显示全部楼层 |阅读模式
强烈建议固定格式的数据增加一项功能!

现在里面有一个随机抽取一个一行一条内容信息。

但我现在采集一千条内容,其中标题要使用我指定的一千条的,如果是随机的话,就重复了。能不能加一个按顺序呢?

发表于 2011-11-2 17:07:49 | 显示全部楼层

由于火车头自定义的是随机的,随机的是普遍的更有用的功能,所以可能顺序发布就没有加吧

可以做接口实现顺序发布,基本步骤是配置一些信息,标签名------.》使用的txt,        路要把某个存放关键字的文件里的关键字作为采集的标题标签,这时可以把采集页提交给接口文件,接口一方面可以得到采集页源码,这样就不会影响其他标签的获取;另一方面,根据配置,标签名--使用的txt,最后返回给火车头的源码是追加了自定义标签(这个不应该称为自定义标签了,同样是火车截取),只是这部分的截取的前后字符串设置了规律的格式 返回源码=初始源码+n个[标签名][/标签名]
每个任务 标签 会本地生成对应的计数txt,格式:任务id_标签名.txt,这样请求一次,计数+1,取存放数据的txt的对应行字符串,就实现了顺序设置自定义数据,路过存放数据条数过少,到了最后一条,继续采集会从头开始顺序设置,所以要不重复,可以设置信息条数多些

免费版火车头可以用

格式http://xxxx/zdy.php?xml_name=xml名字&job_id=任务id(用于区分其他任务)&url=原网站内容页地址


?后参数说明:
xml_name---------------xml名字(算是配置了想自定义标签名 txtbavaria)
job_id---------任务id(用于区分其他任务)
url-----------------原网站内容页地址

例子:http://127.0.0.1/pj/admin/zdy.ph ... n/detail4/3817.html


压缩包文件大概就是这些

admin----------添加配置,用于火车头的接口文件
txt------------关键字等文本文件,提供·信息
jishu----------------每个任务-标签的取到的信息索引的记录
xml---------自定义标签相关的信息存放,标签名   使用的信息文件等

顺序抽取自定义的,不太实用,可能火车头就没有添加吧,随机不重复相比之下比2者好些,另外火车头这个功能一般是用作者标签等,随机性又有一定重复显然更好些

测试如图:



具体的使用,我没有说太清楚详细,这个是全部文件,有密码,联系我

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
发表于 2016-2-8 15:57:13 | 显示全部楼层
历史帖子回顾中。
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2025-8-2 21:50

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表