如何只选择含有指定字词的链接进行采集?
如何识别链接的文字,只选择含有指定字词的链接进行采集?比如说:abc
1、abc的故事
2、来到abc的经历
3、春天的故事
希望在列表页就能通过链接文字进行过滤,只采集12句的链接,然后再进入链接内容页进行采集。
现在我只能根据链接URL来过滤,不知道是不是自己不会用? 文章内容页面必须包含.在这里设置应该可以实现,只包含ACB
比方网站是www.xxx.com/1.htm
里面有很多的页面.比方共同的规则是www.xxx.com/1/123sdf/123.html
其中又包含有www.xxx.com/1/abc123/111.html
那么这时候你只想采集带abc的连接你就选择 /1/abc
他就只能采集这种必须带abc的连接了 你没看懂我的意思。
我说的是链接文字,而不是链接URL 您把要采集的地址给我,顺便告诉我您需要采集的是标题还是内容还是什么- -,我也没懂您的意思! 你可以设置一个标签项用来选择含有指定字词的链接,选择不得为空,就可以了,这样不含有的话你想要的连接就可以选择了 列表页的源代码是:
<a href="http://www.abc.com/1.htm">abc的故事</a>
<a href="http://www.abc.com/2.htm">去abc的经历</a>
<a href="http://www.abc.com/3.htm">去XYZ的经历</a>
我现在只想采集含有链接文字含有abc的内容,即“abc的故事”和“去abc的经历”。 顶下,希望指教一下。不然全要采集进去后才能区分。就比较浪费资源了 急啊,希望哪位可以指教一下。 这个没办法解决,是吗?
页:
[1]