找回密码

火车采集器软件交流官方论坛

搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 4923|回复: 8

1.20版本之手工导入导出规则

[复制链接]
发表于 2006-3-15 15:05:55 | 显示全部楼层 |阅读模式
发现1.20版没有设置导入导出功能,采集的网址太多了看起来都头疼,所以想到了一个简单的方法,见2楼

[ 本帖最后由 failurewu 于 2006-3-18 13:05 编辑 ]

评分

1

查看全部评分

 楼主| 发表于 2006-3-18 03:21:15 | 显示全部楼层
发现1.20虽然不可以导入导出,但可以手工备份
即目录下的urldata文件,格式为:


  1. <?xml version="1.0" encoding="utf-8"?>
  2. <!--Rainsoft XML Config / Copyright (c) 2004,2005 RainTrail Studio.China-->
  3. <!--Created by LocoySpider.exe! 2005-11-02 20:13:04-->
  4. <config>
  5.   <采集名称>
  6.         <全部网址>
  7.               http://www.xxxxx.com/3985.htm
  8.               http://www.xxxxx.com/3986.htm
  9.               http://www.xxxxx.com/3987.htm
  10.       </全部网址>
  11.     </采集名称>
  12. </config>
复制代码
 楼主| 发表于 2006-3-18 03:25:21 | 显示全部楼层
其次发现采集二级链接时候如果网址中有中文字符,则会出现乱码,不能采集,这时候你可以打开urldata文件进行批量替换,如果数目比较多的话建议复制到word文档中进行批量替换,记事本的速度不怎么快,批量替换完毕后一般可以采集入库
 楼主| 发表于 2006-3-18 03:29:37 | 显示全部楼层
今天来了性质顺便发个比较牛的规则,新建了一个通用规则,题目中没有什么,但内容中要排除如下字符

  1. <div (*)>
  2. <Script (*)>(*)</Script>
  3. <Font (*)>
  4. <table >
  5. <span >
  6. <?  (*)>
  7. ……………………
复制代码

等等与格式明显有关的标志
也可以把</p>替换成<br>
这样感觉要好一些

[ 本帖最后由 failurewu 于 2006-3-18 03:34 编辑 ]
 楼主| 发表于 2006-3-18 03:37:07 | 显示全部楼层
建议采集的时候不要一次采的太多,一般1000左右就可以了,多的分几次,不然很麻烦
我是做英语网站的,有人需要的话可以把一些规则传上上来。
以上是使用火车头的一点感受,敬请批评指正,呵呵。
发表于 2006-3-18 09:21:39 | 显示全部楼层
欢迎啊!!!能多发些上来吗?
发表于 2006-3-18 09:21:57 | 显示全部楼层
欢迎啊!!!能多发些上来吗?
发表于 2006-3-21 19:11:56 | 显示全部楼层
原帖由 failurewu 于 2006-3-18 03:37 发表
建议采集的时候不要一次采的太多,一般1000左右就可以了,多的分几次,不然很麻烦
我是做英语网站的,有人需要的话可以把一些规则传上上来。
以上是使用火车头的一点感受,敬请批评指正,呵呵。


谢谢  正想要英文站点啊
发表于 2006-3-25 19:12:46 | 显示全部楼层
复杂
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

温馨提示:建议您联系官方定制服务,通过官方支付方式完成支付。您与其他非官方账号发生的交易,我方概不承担责任。网络有风险,交易需谨慎

QQ| 手机版|Archiver| 火车采集器官方站

Copyright © 2001-2013 Comsenz Inc.  Template by Comeings! All Rights Reserved.

Powered by Discuz! X3.4( 皖ICP备06000549 )

快速回复 返回顶部 返回列表