发新话题
打印

netdream出售100的图片采集规则

netdream出售100的图片采集规则

规则我自己从写的肯定没总斑竹的来的好

没钱的朋友可以看看
有钱的还是买总班的吧


地址设置:http://www.skybbs.com/thread/htm/fid-25/page-(*).html
1-782

由于很多所以导入速度N慢建议分开几批采集

下面是规则,我只测试了3页,大家看看可行不要不成告诉我我再改
顺便谁要搞什么站的规则的话可以加我QQ:4884047免费帮你看看能搞出来不

<?xml version="1.0" encoding="utf-8"?>
<!--LocoySpider配置文件xml读写方法 by:www.locoy.com QQ:95586440 -->
<!--Created by LocoySpider.exe! 2006-02-26 15:24:30-->
<config>
  <图>
    <标题开始>&lt;/b&gt;</标题开始>
    <作者开始>
    </作者开始>
    <出处开始>
    </出处开始>
    <时间开始>
    </时间开始>
    <内容开始>&lt;br&gt;&lt;span class='tpc_content' &gt;</内容开始>
    <标题结束>&lt;/td&gt;</标题结束>
    <作者结束>
    </作者结束>
    <出处结束>
    </出处结束>
    <时间结束>
    </时间结束>
    <内容结束>&lt;/td&gt;&lt;/tr&gt;</内容结束>
    <标题正则1>
    </标题正则1>
    <作者正则1>
    </作者正则1>
    <出处正则1>
    </出处正则1>
    <时间正则1>
    </时间正则1>
    <内容正则1>
    </内容正则1>
    <标题正则2>
    </标题正则2>
    <作者正则2>
    </作者正则2>
    <出处正则2>
    </出处正则2>
    <时间正则2>
    </时间正则2>
    <内容正则2>
    </内容正则2>
    <内容正则3>
    </内容正则3>
    <内容正则4>
    </内容正则4>
    <内容正则5>
    </内容正则5>
    <标题前缀>
    </标题前缀>
    <来源站点>
    </来源站点>
    <内容替换开始1>
    </内容替换开始1>
    <内容替换结束1>
    </内容替换结束1>
    <内容替换开始2>
    </内容替换开始2>
    <内容替换结束2>
    </内容替换结束2>
    <内容替换开始3>
    </内容替换开始3>
    <内容替换结束3>
    </内容替换结束3>
    <内容替换开始4>
    </内容替换开始4>
    <内容替换结束4>
    </内容替换结束4>
  </图>
</config>

TOP

由于那个论坛改过帖子位置所以只能这么肤浅的来清理一下了

TOP

发现点问题再改改

TOP

TOP

找到处理方法了,首先把所有地址采集来,然后导出,人工查找thread/htm/fid-25/search-/替换为没有
然后再导入发,你会发现可以使用了

TOP

汗~~~~~~~~~

TOP

唉!

TOP

可能是网速太慢了哟
论坛复制大转移(论坛克隆)正在火热销售中
同时承接如下业务:1.采集规则2.火车头登陆模块3.数据转换4.全站+论坛数据采集
数据1.两性网2.英文网3.宠物全站>>>以上联系QQ:83202700

TOP

发新话题
Powered by Discuz! 6.0.0  © 2001-2007 Comsenz Technology Ltd
Processed in 0.235395 second(s), 7 queries, Gzip enabled
当前时区 GMT+8, 现在时间是 2008-9-5 14:34 皖ICP备06000549 清除 Cookies - 联系我们 - 火车采集器官方站 - 静态归档