defive 发表于 2011-10-22 13:26:20

强烈建议固定格式的数据增加一项功能!

强烈建议固定格式的数据增加一项功能!

现在里面有一个随机抽取一个一行一条内容信息。

但我现在采集一千条内容,其中标题要使用我指定的一千条的,如果是随机的话,就重复了。能不能加一个按顺序呢?

zhouchanglin 发表于 2011-11-2 17:07:49


由于火车头自定义的是随机的,随机的是普遍的更有用的功能,所以可能顺序发布就没有加吧

可以做接口实现顺序发布,基本步骤是配置一些信息,标签名------.》使用的txt,      路要把某个存放关键字的文件里的关键字作为采集的标题标签,这时可以把采集页提交给接口文件,接口一方面可以得到采集页源码,这样就不会影响其他标签的获取;另一方面,根据配置,标签名--使用的txt,最后返回给火车头的源码是追加了自定义标签(这个不应该称为自定义标签了,同样是火车截取),只是这部分的截取的前后字符串设置了规律的格式 返回源码=初始源码+n个[标签名][/标签名]
每个任务 标签 会本地生成对应的计数txt,格式:任务id_标签名.txt,这样请求一次,计数+1,取存放数据的txt的对应行字符串,就实现了顺序设置自定义数据,路过存放数据条数过少,到了最后一条,继续采集会从头开始顺序设置,所以要不重复,可以设置信息条数多些

免费版火车头可以用

格式http://xxxx/zdy.php?xml_name=xml名字&job_id=任务id(用于区分其他任务)&url=原网站内容页地址


?后参数说明:
xml_name---------------xml名字(算是配置了想自定义标签名 txtbavaria)
job_id---------任务id(用于区分其他任务)
url-----------------原网站内容页地址

例子:http://127.0.0.1/pj/admin/zdy.php?xml_name=guize&job_id=3&url=http://xiaohua.zol.com.cn/detail4/3817.html


压缩包文件大概就是这些

admin----------添加配置,用于火车头的接口文件
txt------------关键字等文本文件,提供·信息
jishu----------------每个任务-标签的取到的信息索引的记录
xml---------自定义标签相关的信息存放,标签名   使用的信息文件等

顺序抽取自定义的,不太实用,可能火车头就没有添加吧,随机不重复相比之下比2者好些,另外火车头这个功能一般是用作者标签等,随机性又有一定重复显然更好些

测试如图:



具体的使用,我没有说太清楚详细,这个是全部文件,有密码,联系我972130397

lbjyuer 发表于 2016-2-8 15:57:13

历史帖子回顾中。
页: [1]
查看完整版本: 强烈建议固定格式的数据增加一项功能!