多级采集如何做啊
http://weitao.taobao.com/tzh/home.htm?spm=a2143.3068457.0.0.EzAZl4&tzhUserId=&wsnsUid=2015321139&pageNo=1&dateProxy=像这种网址,他不是简单的列表,下面还有js隐藏的列表,源码里看不到。好像是js自动获取这种页面的内容填充的列表页http://weitao.taobao.com/tzh/feed/published_feeds.htm?tzhUserId=1762554739&wsnsUid=2015321139&pageNo=1&pageIndex=10,设置好的采集规则不能完全采集到所有内容,求高手!!!!!!!! 直接以http://weitao.taobao.com/tzh/feed/published_feeds.htm?tzhUserId=1762554739&wsnsUid=2015321139&pageNo=1&pageIndex=10为第一级列表页采集就行了呢 303718 发表于 2014-3-3 20:01 static/image/common/back.gif
直接以为第一级列表页采集就行了呢
你仔细分析下我是想通过采集
http://weitao.taobao.com/tzh/home.htm?spm=a2143.3068457.0.0.EzAZl4&tzhUserId=&wsnsUid=2015321139&pageNo=1&dateProxy=这个页面完整的内容,但是有很多内容是隐藏在http://weitao.taobao.com/tzh/feed/published_feeds.htm?tzhUserId=1762554739&wsnsUid=2015321139&pageNo=1&pageIndex=10这种页面里的 303718 发表于 2014-3-3 20:01 static/image/common/back.gif
直接以为第一级列表页采集就行了呢
如果一页一页的采集只能采一个页面的 ,采集的所有页面地址 相当于一个二维数组 但是在源码里又匹配不到这种格式
我把手动填写实际链接地址规则的 实际链接写的这样子http://weitao.taobao.com/tzh/feed/published_feeds.htm?tzhUserId=1762554739&wsnsUid=2015321139&pageNo=[参数1]&pageIndex=<0,1,10,1,False,False>,但是这里好像不支持<0,1,10,1,False,False>这个表达式 那你用自定义链接。这两个参数代码里也是有的1762554739&wsnsUid=2015321139 303718 发表于 2014-3-3 20:13 static/image/common/back.gif
那你用自定义链接。这两个参数代码里也是有的1762554739&wsnsUid=2015321139
是的 我现在在自定义先获取page=1然后再要获取page=1&pageindex=(1-10)的页面,这才是所有的。然后还没写出来 303718 发表于 2014-3-3 20:13 static/image/common/back.gif
那你用自定义链接。这两个参数代码里也是有的1762554739&wsnsUid=2015321139
。。。。。。。。。。。要不我加您QQ聊 那只能用插件解决了。 火车头加插件??? 303718 发表于 2014-3-3 20:21 static/image/common/back.gif
那只能用插件解决了。
需要加什么插件啊
页:
[1]