xptool 发表于 2010-8-15 18:34:29

2010如何只选择含有指定字词的链接进行采集?

如何只选择含有指定字词的链接进行采集?
如何识别链接的文字,只选择含有指定字词的链接进行采集?
比如说:abc
1、abc的故事
2、来到abc的经历
3、春天的故事

希望在列表页就能通过链接文字进行过滤,只采集12句的链接,然后再进入链接内容页进行采集。

现在我只能根据链接URL来过滤,不知道是不是自己不会用?

我说的是链接文字,而不是链接URL

列表页的源代码是:
<a href="http://www.abc.com/1.htm">abc的故事</a>
<a href="http://www.abc.com/2.htm">去abc的经历</a>
<a href="http://www.abc.com/3.htm">去XYZ的经历</a>

我现在只想采集含有链接文字含有abc的内容,即“abc的故事”和“去abc的经历”。


顶下,希望指教一下。不然全要采集进去后才能区分。就比较浪费资源了

这是一年前的帖子 问题还是没有解决我也没有找到相关的答案

我现在这里谢谢各位老师和高手了
页: [1]
查看完整版本: 2010如何只选择含有指定字词的链接进行采集?