2010如何只选择含有指定字词的链接进行采集?
如何只选择含有指定字词的链接进行采集?如何识别链接的文字,只选择含有指定字词的链接进行采集?
比如说:abc
1、abc的故事
2、来到abc的经历
3、春天的故事
希望在列表页就能通过链接文字进行过滤,只采集12句的链接,然后再进入链接内容页进行采集。
现在我只能根据链接URL来过滤,不知道是不是自己不会用?
我说的是链接文字,而不是链接URL
列表页的源代码是:
<a href="http://www.abc.com/1.htm">abc的故事</a>
<a href="http://www.abc.com/2.htm">去abc的经历</a>
<a href="http://www.abc.com/3.htm">去XYZ的经历</a>
我现在只想采集含有链接文字含有abc的内容,即“abc的故事”和“去abc的经历”。
顶下,希望指教一下。不然全要采集进去后才能区分。就比较浪费资源了
这是一年前的帖子 问题还是没有解决我也没有找到相关的答案
我现在这里谢谢各位老师和高手了
页:
[1]