火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 5622|回复: 5

请问这样的网址该如何采集呢?

[复制链接]
发表于 2018-8-8 15:09:36 | 显示全部楼层 |阅读模式
51cto.com网站首页的文章网址采集:
首先通过Fiddler获取到文章列表的真实网址http://www.51cto.com/php/get_channel_artlist.php?id=0&page=[地址参数],但是采集到的内容网址为带双斜杠\/,例如:http:\/\/developer.51cto.com\/art\/201808\/580814.htm,但是51cto.com的内容网址有两种的,一种是http://developer.51cto.com/art/201808/580814.htm,另一种是http://server.51cto.com/OS-580792.htm
如果做这样的设置(如下),只能采集到第一种的网址,另一种就无法采集到,请问如何设置才能把这两种网址都采集到呢?
提取规则:"url":"http:\/\/[参数]\/art\/[参数]\/[参数].htm"
拼接地址:http://[参数1]/art/[参数2]/[参数3].htm


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
发表于 2018-8-9 09:40:07 | 显示全部楼层
可以考虑用内容页处理
发表于 2018-8-10 16:27:58 | 显示全部楼层
只能先采集带art的网址 然后你在 重新弄一个提取规则 提取 不带的
"url":"http:\/\/[参数]\/[参数].htm","stime"   脚本规则
http://[参数1]/[参数2]htm    实际链接
 楼主| 发表于 2018-8-12 15:44:36 | 显示全部楼层
leweizxl 发表于 2018-8-9 09:40
可以考虑用内容页处理

列车长,用内容页处理?不明白,请明示。
发表于 2018-8-13 08:27:40 | 显示全部楼层
hanghaigood 发表于 2018-8-12 15:44
列车长,用内容页处理?不明白,请明示。

采集网址到内容页里,获取网址后做数据处理并http请求
 楼主| 发表于 2018-8-13 16:39:43 | 显示全部楼层
wx_V5rh7Y6E 发表于 2018-8-10 16:27
只能先采集带art的网址 然后你在 重新弄一个提取规则 提取 不带的
"url":"http:\/\/[参数]\/[参数].htm","s ...

不错的办法,谢谢了。
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-24 16:57

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表