liuds731 发表于 2014-5-11 02:54:57

是否无法从国家统计局上采集产品名称?

想从国家统计局网站上提取出产品名称的信息,导出到excel表中,网址是http://www.stats.gov.cn/tjsj/tjbz/tjypflml/index.html 。
这个网址的特点是产品信息是分成几集目录的,比如第一级“农业产品” http://www.stats.gov.cn/zjtj/tjbz/tjypflml/2010/01.html,在农业产品页,又有19种产品名称,网址形式是http://www.stats.gov.cn/zjtj/tjbz/tjypflml/2010/01/0101.html,在每一个产品名称又可以点击进入,下一级的产品名称还可以继续点击,直到最后到了最细化的产品无法继续点击
按照教程试了试,还是实现不了,主要是两个问题:
1,这种很多级的网址形式的变化,火车采集器好像实现不了
2,只需要采集到产品名称,最后输出的是一大长串产品名称,可内容规则编写完一测试,采集不到具体的产品名称,只采集了产品名称的数字编号

请前辈们指点,谢谢!

303718 发表于 2014-5-11 09:52:43

多级的一直添加级别采下去就行了呢。火车头支持无限级采集的

liuds731 发表于 2014-5-11 12:07:34

303718 发表于 2014-5-11 09:52 static/image/common/back.gif
多级的一直添加级别采下去就行了呢。火车头支持无限级采集的

那采集规则呢?按照视频教程里的方法写规则,最后只出来产品的编号,出不来产品名称

j3399520 发表于 2014-5-11 13:00:35


<tr class='villagetr'><td>(*)</td><td>


</td>

liuds731 发表于 2014-5-11 13:29:59

j3399520 发表于 2014-5-11 13:00 static/image/common/back.gif

(*)





还是不行啊

j3399520 发表于 2014-5-12 09:41:22

晕,规则是没错的。具体看你自己的设置问题了。另外,友情提示下:这个规则是采集终极页的,不是你上面测试的主页,主页是用来采集网址的,而不是内容。


最后,还是建议你多学习下相关知识。

liuds731 发表于 2014-5-12 23:59:51

j3399520 发表于 2014-5-12 09:41 static/image/common/back.gif
晕,规则是没错的。具体看你自己的设置问题了。另外,友情提示下:这个规则是采集终极页的,不是你上面测 ...

哦哦,谢谢。。。应该看哪个资料学习更好更快?
页: [1]
查看完整版本: 是否无法从国家统计局上采集产品名称?