火车采集器V2008版更新[2008-08-08][火车车厢管理制度]论坛活跃、奖励计划http://domain.locoy.com火车采集器高级版本在线订购高级版本功能及技术支持列表
返回列表 回复 发帖

小声的问下:下载好的规则怎么导入啊

RT
登陆后好象没看到

网址规则导入方法URldata.XML

用记事本打开程序目录下面的URldata.XML,会看到以下内容
<?xml version="1.0" encoding="utf-8"?>
<!--Rainsoft XML Config / Copyright (c) 2004,2005 RainTrail Studio.China-->
<!--Created by LocoySpider.exe! 2005-11-02 20:13:04-->
<config>
<cs>
    <全部网址>http://127.0.0.1/html_out/programming/csharp/11.html        http://127.0.0.1/html_out/programming/csharp/12.html        http://127.0.0.1/html_out/programming/csharp/13.html        http://127.0.0.1/html_out/programming/csharp/14.html        http://127.0.0.1/html_out/programming/csharp/15.html        http://127.0.0.1/html_out/programming/csharp/16.html        http://127.0.0.1/html_out/programming/csharp/17.html        http://127.0.0.1/html_out/programming/csharp/18.html        </全部网址>
  </cs>
  <华军_软件咨讯>
    <全部网址>http://news.newhua.com/html/Soft_news/2006-1/24/0612410251139996_78.shtml       
找一下你的规则,可以发现跟UBB标签差不多的格式
如以上引用内容里面的彩色部分,<CS>***</CS>其中的<CS>就是你在程序里面所看到的采集网址保存规则名称,所以你只要将<你所保存规则名称>*内*容*</你所保存规则名称>里面的内容复制到<config>后面就可以了,记得要刷新哦

[ 本帖最后由 孤魂 于 2006-3-29 14:25 编辑 ]
1

评分次数

网页规则导入方法XmlData.XML

<?xml version="1.0" encoding="utf-8"?>
<!--Rainsoft XML Config / Copyright (c) 2004,2005 RainTrail Studio.China-->
<!--Created by LocoySpider.exe! 2005-11-02 14:52:30-->
<config>
  <cs>
    <标签1 标签名="标题" 开始字符串="&lt;TITLE&gt;" 结束字符串="&lt;/" 内容排除="" 内容替换="" 采集形式="采集内容" 连接中必须包含="" 连接中不得包含="" 探测真实地址="否" />
    <标签2 标签名="作者" 开始字符串="" 结束字符串="" 内容排除="" 内容替换="" 采集形式="采集内容" 连接中必须包含="" 连接中不得包含="" 探测真实地址="否" />
    <标签3 标签名="出处" 开始字符串="" 结束字符串="" 内容排除="" 内容替换="" 采集形式="采集内容" 连接中必须包含="" 连接中不得包含="" 探测真实地址="否" />
    <标签4 标签名="时间" 开始字符串="" 结束字符串="" 内容排除="" 内容替换="" 采集形式="采集内容" 连接中必须包含="" 连接中不得包含="" 探测真实地址="否" />
    <标签5 标签名="内容" 开始字符串="&lt;TD height=4&gt;&lt;/TD&gt;&lt;/TR&gt;&#xD;&#xA;        &lt;TR&gt;&#xD;&#xA;          &lt;TD class=20 vAlign=top height=142&gt;" 结束字符串="&lt;/TD&gt;&lt;/TR&gt;&#xD;&#xA;        &lt;TR&gt;&#xD;&#xA;          &lt;TD&gt;&lt;script src="/php/getpre-next.php?nowid=(*)"&gt;&lt;/script&gt;" 内容排除="" 内容替换="" 采集形式="采集内容" 连接中必须包含="" 连接中不得包含="" 探测真实地址="否" />
    <标签6 标签名="" 开始字符串="" 结束字符串="" 内容排除="" 内容替换="" 采集形式="" 连接中必须包含="" 连接中不得包含="" 探测真实地址="" />
    <标签7 标签名="" 开始字符串="" 结束字符串="" 内容排除="" 内容替换="" 采集形式="" 连接中必须包含="" 连接中不得包含="" 探测真实地址="" />
    <标签8 标签名="" 开始字符串="" 结束字符串="" 内容排除="" 内容替换="" 采集形式="" 连接中必须包含="" 连接中不得包含="" 探测真实地址="" />
    <分页设置 形式="全部" 分页开始="" 分页结束="" />
    <分页合并 形式="回车" 分页代码="#p#231" />
    <内容循环 次数="1" 测试页面="http://127.0.0.1/html_out/programming/csharp/13.html" />
    <源站编码 编码="Default" />
  </cs>
  <华军_软件咨讯>
    <标签1 标签名="标题" 开始字符串="&lt;title&gt;" 结束字符串="--华军软件园" 内容排除="" 内容替换="" 采集形式="采集内容" 连接中必须包含="" 连接中不得包含="" 探测真实地址="否" />
    <标签2 标签名="作者" 开始字符串=" 作者:" 结束字符串="字体:" 内容排除="" 内容替换="" 采集形式="采集内容" 连接中必须包含="" 连接中不得包含="" 探测真实地址="否" />
说多了占用数据库空间,看看上面的彩色的地方,自己想想应该会明白,如果还有不明白的,可以去菜市场买一块豆腐,撞死。。。

[ 本帖最后由 孤魂 于 2006-3-29 14:24 编辑 ]
1

评分次数

原帖由 孤魂 于 2006-3-29 14:20 发表



说多了占用数据库空间,看看上面的彩色的地方,自己想想应该会明白,如果还有不明白的,可以去菜市场买一块豆腐,撞死。。。
没事.数据库空间很大...发表吧.不怕.呵!写个长篇小说都没问题!
返回列表
售前客服QQ: 火车采集器客服 rq204, 火车采集器客服 飞越无限火车采集器客服 孤魂火车采集器客服 尘缘, 联系电话:0551-3495249(技术合作问题) 023-58436018 (08:00-20:00-客服),0752-2553545(09:00-20:00-客服)