iamatig 发表于 2009-5-2 13:44:29

如何只选择含有指定字词的链接进行采集?

如何识别链接的文字,只选择含有指定字词的链接进行采集?
比如说:abc
1、abc的故事
2、来到abc的经历
3、春天的故事

希望在列表页就能通过链接文字进行过滤,只采集12句的链接,然后再进入链接内容页进行采集。

现在我只能根据链接URL来过滤,不知道是不是自己不会用?

水杯子 发表于 2009-5-2 13:52:43

文章内容页面必须包含.在这里设置应该可以实现,只包含ACB

比方网站是www.xxx.com/1.htm
里面有很多的页面.比方共同的规则是www.xxx.com/1/123sdf/123.html
其中又包含有www.xxx.com/1/abc123/111.html

那么这时候你只想采集带abc的连接你就选择 /1/abc

他就只能采集这种必须带abc的连接了

iamatig 发表于 2009-5-2 14:10:01

你没看懂我的意思。
我说的是链接文字,而不是链接URL

水杯子 发表于 2009-5-2 14:14:32

您把要采集的地址给我,顺便告诉我您需要采集的是标题还是内容还是什么- -,我也没懂您的意思!

jueshihaogongzi 发表于 2009-5-2 15:37:05

你可以设置一个标签项用来选择含有指定字词的链接,选择不得为空,就可以了,这样不含有的话你想要的连接就可以选择了

iamatig 发表于 2009-5-2 15:51:04

列表页的源代码是:
<a href="http://www.abc.com/1.htm">abc的故事</a>
<a href="http://www.abc.com/2.htm">去abc的经历</a>
<a href="http://www.abc.com/3.htm">去XYZ的经历</a>

我现在只想采集含有链接文字含有abc的内容,即“abc的故事”和“去abc的经历”。

iamatig 发表于 2009-5-2 16:41:24

顶下,希望指教一下。不然全要采集进去后才能区分。就比较浪费资源了

iamatig 发表于 2009-5-3 11:36:29

急啊,希望哪位可以指教一下。

iamatig 发表于 2009-5-4 01:23:17

这个没办法解决,是吗?
页: [1]
查看完整版本: 如何只选择含有指定字词的链接进行采集?