请问这样的网址该如何采集呢？

hanghaigood 发表于 2018-8-8 15:09:36

51cto.com网站首页的文章网址采集：
首先通过Fiddler获取到文章列表的真实网址http://www.51cto.com/php/get_channel_artlist.php?id=0&page=[地址参数]，但是采集到的内容网址为带双斜杠\/，例如：http:\/\/developer.51cto.com\/art\/201808\/580814.htm，但是51cto.com的内容网址有两种的，一种是http://developer.51cto.com/art/201808/580814.htm，另一种是http://server.51cto.com/OS-580792.htm。
如果做这样的设置（如下），只能采集到第一种的网址，另一种就无法采集到，请问如何设置才能把这两种网址都采集到呢？
提取规则："url":"http:\/\/[参数]\/art\/[参数]\/[参数].htm"
拼接地址：http://[参数1]/art/[参数2]/[参数3].htm

leweizxl 发表于 2018-8-9 09:40:07

可以考虑用内容页处理

wx_V5rh7Y6E 发表于 2018-8-10 16:27:58

只能先采集带art的网址然后你在重新弄一个提取规则提取不带的
"url":"http:\/\/[参数]\/[参数].htm","stime" 脚本规则
http://[参数1]/[参数2]htm 实际链接

hanghaigood 发表于 2018-8-12 15:44:36

leweizxl 发表于 2018-8-9 09:40
可以考虑用内容页处理

列车长，用内容页处理？不明白，请明示。

leweizxl 发表于 2018-8-13 08:27:40

hanghaigood 发表于 2018-8-12 15:44
列车长，用内容页处理？不明白，请明示。

采集网址到内容页里，获取网址后做数据处理并http请求

hanghaigood 发表于 2018-8-13 16:39:43

wx_V5rh7Y6E 发表于 2018-8-10 16:27
只能先采集带art的网址然后你在重新弄一个提取规则提取不带的
"url":"http:\/\/[参数]\/[参数].htm","s ...

不错的办法，谢谢了。

页: [1]

火车采集器软件交流官方论坛's Archiver

请问这样的网址该如何采集呢？