maryar 发表于 2009-1-15 14:24:19

再发一个对火车头程序的建议,请务必考虑采纳!

火车头是我用过的第N个采集器,也是非常不错的一个,这种类似功能的我在05年有用过一个,做的非常棒,功能现在一般的应用都能满足,开发者应该是个高手,那个时侯出采集程序的人并不多,写的好的就寥寥无几,可能是开发者不善经营吧,最后好像没有再开发了,后来用火车头,刚开始还跟火车头qq聊天过,记得好像是在哪个国企上班,业余写的,本来想当时跟他学习写程序的,后来因为个人工作的原因,有相当长一段时间没搞采集,网站也扔了比较久,就没太关注,后来再来看火车头的时候,发现火车头已经做得相当不错了,这里先赞一个!

晕了,怎么这么唠叨,重点:之所以提到那个采集器,是因为那个程序在采集内容的时候,可以设置前后匹配的关键字的搜索顺序是正向搜索还是反相搜索,这样操作非常方便,我的建议是火车头采集器在截取内容的时候也加入这个功能。
比如:    对于下一页链接 , 现在用采集器设置就不太方便提取这个下一页的链接(特别是这个页面分的非常多,不全部列出来的时候,用全部列出式不行,用下一页不好提取)
代码:<div class="pages"><em>&nbsp;869&nbsp;</em><strong>1</strong>
<a href="viewthread.php?tid=3821&amp;extra=page%3D1&amp;page=2">2</a>
<a href="viewthread.php?tid=3821&amp;extra=page%3D1&amp;page=3">3</a>
<a href="viewthread.php?tid=3821&amp;extra=page%3D1&amp;page=4">4</a>
<a href="viewthread.php?tid=3821&amp;extra=page%3D1&amp;page=5">5</a>
<a href="viewthread.php?tid=3821&amp;extra=page%3D1&amp;page=6">6</a>
<a href="viewthread.php?tid=3821&amp;extra=page%3D1&amp;page=7">7</a>
<a href="viewthread.php?tid=3821&amp;extra=page%3D1&amp;page=8">8</a>
<a href="viewthread.php?tid=3821&amp;extra=page%3D1&amp;page=9">9</a>
<a href="viewthread.php?tid=3821&amp;extra=page%3D1&amp;page=10">10</a>
<a href="viewthread.php?tid=3821&amp;extra=page%3D1&amp;page=2" class="next">下页</a>

如果可以设置匹配从后向前匹配,那就非常简单   <a href="[下一页链接]" class="next">下页</a> 如果是顺序匹配,那结果是什么?相信大家都知道!

懷念過去↑文 发表于 2009-1-15 14:55:59

不是很懂``

小钕子 发表于 2009-1-15 15:20:21

maryar 发表于 2009-1-15 16:05:39

楼上2位不是很明白?
哎,表述能力有问题!
希望软件开发人员可以懂我的意思!

rq204 发表于 2009-1-15 17:15:28

你说的不就是分页地址列表样式吗?

飛越無限 发表于 2009-1-15 17:51:42

列表页可以通过 参数来过滤。如果是分页的话,也可以通过参数重组一样可以实现的

defyasdf 发表于 2009-1-15 19:28:03

2# 懷念過去↑文
原来可以负节?我也要负

城市乞丐 发表于 2009-1-18 09:23:24

全局关键词替换 是否还有些不能实现

比如:被采原文:
   熟悉自己的身体——1岁左右,妈妈就可以开始引导宝贝逐渐熟悉身体的各个部分了。妈妈可以在宝贝精力较旺盛的时候,一边指着宝贝身体的各个部位,一边清楚而缓慢地说出相应名称,假如能以有韵律的诗歌的形式说出来就更好了。也可以以游戏的形式教宝贝,比如,母亲先指着自己的嘴:“母亲的嘴巴在这里。”而后手指在宝贝面前画大圈:“宝贝的嘴巴在哪里?在哪里?……”可以重复问几遍以增加宝贝的注重力和爱好,最后快速地指向宝贝的嘴:“在这里!”

   原文中有“妈妈”“母亲”这两个词, 现在我需要的是把原文的“母亲”替换成“妈妈”,
而原文中的“妈妈”替换“母亲”,
   我在替换词加入妈妈---母亲    母亲--妈妈   不能成功(发布结果和原文一样)。

bd540 发表于 2009-1-18 13:29:59

<div class="pages">
</div>
这样采不到分页么?

maryar 发表于 2009-2-3 19:24:52

各位还是不理解我的意思,反向搜索非常简单,便于采集,再给一个例子:
<td width="73%">您现在的位置:&nbsp;<a class='LinkPath' href='http://www.fff.com'>致富</a>&nbsp;>>&nbsp;<a class='LinkPath' href='/article2/Index.html'>网络</a>&nbsp;>>&nbsp;<a class='LinkPath' href='/article2/List_89.html'>广告</a>&nbsp;>>&nbsp;<a class='LinkPath' href='/article2/List_102.html'>google</a>&nbsp;>>&nbsp;文章正文</td>

我想取google这个栏目名称,请问谁有好的方法,注意这个目标站栏目可能不都是4层,可能3层,2层。
如果支持反相搜索,可以从“</a>&nbsp;>>&nbsp;文章正文</td>”开始,到“>”即可提取到google,正向,好像很难吧?
页: [1] 2
查看完整版本: 再发一个对火车头程序的建议,请务必考虑采纳!