看近行远 发表于 2016-10-27 17:07:13

采集器访问网址是403状态码

很无奈的一个问题:采集器自带的查看源码的工具,在查看新浪的很多频道时,都无法获取到源代码,都是403.
PS:采集的网址中带有反斜杠的怎么过滤啊?求个思路?
以上,help

leweizxl 发表于 2016-10-28 09:16:33

新浪需要抓包获取    http请求里需要添加个来源页面设置    反斜杠只能用手动链接设置处理

303718 发表于 2016-10-28 16:37:13

用插件处理比较方便。

看近行远 发表于 2016-10-31 10:04:39

leweizxl 发表于 2016-10-28 09:16
新浪需要抓包获取    http请求里需要添加个来源页面设置    反斜杠只能用手动链接设置处理 ...

新浪的是从JS里获取的,例如:http://feed.mix.sina.com.cn/api/roll/get?pageid=155&lid=1686&num=10&page=2&callback=feedCardJsonpCallback&_=1477879255090

但是用采集器的查看源码工具访问就是403

看近行远 发表于 2016-11-1 09:48:58

leweizxl 发表于 2016-10-28 09:16
新浪需要抓包获取    http请求里需要添加个来源页面设置    反斜杠只能用手动链接设置处理 ...

反斜杠手动链接设置怎么搞啊?求help
页: [1]
查看完整版本: 采集器访问网址是403状态码