ddol 发表于 2007-11-11 16:44:51

请问如何采集类似于下面文中提到的页面?

这个就没办法采集~好郁闷~~似乎是用js代码调用的 ~无法采集~~


http://eat.sina.com.cn/more/xxcq.html

帮帮忙~可以的把采集的规则发给我~

或是在回帖中做详细的解析~~

似乎还不太好 ~没有很好的解决 分页问题~

[ 本帖最后由 ddol 于 2007-11-12 23:10 编辑 ]

bisn 发表于 2007-11-11 16:44:52

采集规则写好了
下载链接
http://bbs.locoy.com/spider-20316-1-1.html

其实很简单的,不用管下一页的
所有文章链接都在第一页
列表的文章链接要手动填写,火车头自动分析不出来
建议你看看这个教程
第一期培训教程系列之六【正则采集网址及使用教程】
http://bbs.locoy.com/spider-19972-1-1.html

[ 本帖最后由 bisn 于 2007-11-11 19:09 编辑 ]

ddol 发表于 2007-11-11 20:02:57

大致知道了 但是有些网址 没采集到
不如
http://eat.sina.com.cn/art/2007-10-31/143133373.shtml
其他几个页面都没采集到~??按你给的 规则,采集到的网址只有四百个 ,我倒出来之后搜索了下没有相关的 页面的 网址~希望一并解决 ?

bisn 发表于 2007-11-11 20:46:09

你给的列表页面(http://eat.sina.com.cn/more/xxcq.html)正好有400条,不信你数下

晕倒,有分页
我修改下规则

[ 本帖最后由 bisn 于 2007-11-11 20:53 编辑 ]

bisn 发表于 2007-11-11 20:52:59

好了
已经修改
下载链接
http://bbs.locoy.com/spider-20316-1-1.html

ddol 发表于 2007-11-11 21:43:04

谢谢 ~~就是不会用分页!还有这种比较有难度的采集方法~谢谢~~
火车头随后就到~

ddol 发表于 2007-11-11 21:47:08

不对啊 ~用新的那个 测试采集到的页面也才400个~不够啊~~

bisn 发表于 2007-11-12 08:31:50

页面只有400页,好多分页只能算一个页面,汗!

wykslina 发表于 2007-11-12 09:46:04

好东东呀!

ooabcoo 发表于 2007-11-14 14:27:09

一开始我孔洞知道分页要怎么采集,现在知道了!谢谢!
页: [1]
查看完整版本: 请问如何采集类似于下面文中提到的页面?