90520 发表于 2014-3-3 19:53:23

多级采集如何做啊

http://weitao.taobao.com/tzh/home.htm?spm=a2143.3068457.0.0.EzAZl4&tzhUserId=&wsnsUid=2015321139&pageNo=1&dateProxy=
像这种网址,他不是简单的列表,下面还有js隐藏的列表,源码里看不到。好像是js自动获取这种页面的内容填充的列表页http://weitao.taobao.com/tzh/feed/published_feeds.htm?tzhUserId=1762554739&wsnsUid=2015321139&pageNo=1&pageIndex=10,设置好的采集规则不能完全采集到所有内容,求高手!!!!!!!!

303718 发表于 2014-3-3 20:01:23

直接以http://weitao.taobao.com/tzh/feed/published_feeds.htm?tzhUserId=1762554739&wsnsUid=2015321139&pageNo=1&pageIndex=10为第一级列表页采集就行了呢

90520 发表于 2014-3-3 20:09:18

303718 发表于 2014-3-3 20:01 static/image/common/back.gif
直接以为第一级列表页采集就行了呢

你仔细分析下我是想通过采集
http://weitao.taobao.com/tzh/home.htm?spm=a2143.3068457.0.0.EzAZl4&tzhUserId=&wsnsUid=2015321139&pageNo=1&dateProxy=这个页面完整的内容,但是有很多内容是隐藏在http://weitao.taobao.com/tzh/feed/published_feeds.htm?tzhUserId=1762554739&wsnsUid=2015321139&pageNo=1&pageIndex=10这种页面里的

90520 发表于 2014-3-3 20:13:07

303718 发表于 2014-3-3 20:01 static/image/common/back.gif
直接以为第一级列表页采集就行了呢

如果一页一页的采集只能采一个页面的 ,采集的所有页面地址 相当于一个二维数组   但是在源码里又匹配不到这种格式
我把手动填写实际链接地址规则的 实际链接写的这样子http://weitao.taobao.com/tzh/feed/published_feeds.htm?tzhUserId=1762554739&wsnsUid=2015321139&pageNo=[参数1]&pageIndex=<0,1,10,1,False,False>,但是这里好像不支持<0,1,10,1,False,False>这个表达式

303718 发表于 2014-3-3 20:13:35

那你用自定义链接。这两个参数代码里也是有的1762554739&wsnsUid=2015321139

90520 发表于 2014-3-3 20:17:28

303718 发表于 2014-3-3 20:13 static/image/common/back.gif
那你用自定义链接。这两个参数代码里也是有的1762554739&wsnsUid=2015321139

是的 我现在在自定义先获取page=1然后再要获取page=1&pageindex=(1-10)的页面,这才是所有的。然后还没写出来

90520 发表于 2014-3-3 20:18:11

303718 发表于 2014-3-3 20:13 static/image/common/back.gif
那你用自定义链接。这两个参数代码里也是有的1762554739&wsnsUid=2015321139

。。。。。。。。。。。要不我加您QQ聊

303718 发表于 2014-3-3 20:21:44

那只能用插件解决了。

90520 发表于 2014-3-3 20:28:18

火车头加插件???

90520 发表于 2014-3-3 20:40:21

303718 发表于 2014-3-3 20:21 static/image/common/back.gif
那只能用插件解决了。

需要加什么插件啊
页: [1]
查看完整版本: 多级采集如何做啊