vsgod 发表于 2013-3-25 21:45:48

目录中有中文的采集不了内容页

本帖最后由 vsgod 于 2013-3-26 12:59 编辑

http://www.ciqol.net/seenews/listkeyword/keyword/新产品新技术/size/20/page/6

网址如上,采集不了内容页

网页编辑非自动,设定与采集站的相同都是UTF8.



已解决:

解决方法,网址自动编码,即:http://www.ciqol.net/seenews/listkeyword/keyword/%E6%96%B0%E4%BA%A7%E5%93%81%E6%96%B0%E6%8A%80%E6%9C%AF/size/20/page/(*)

同时把编码改为UTF8,再设定必须包含和采集范围,即可开采。

303718 发表于 2013-3-26 10:14:19

可以采集到内容

vsgod 发表于 2013-3-26 12:14:56

本帖最后由 vsgod 于 2013-3-26 12:30 编辑

303718 发表于 2013-3-26 10:14 static/image/common/back.gif
可以采集到内容

你采集的不是内容,是列表页。内容页的格式是http://www.ciqol.net/seenews/view/article_id/509478这样的,你看看你的网址就清楚了。











又测试了下,地址必须包含seenews/view/article_id后,指定采集范围时不能采集到内容页网址,不指定时可以采集到,但有其它不需要的内容夹杂在里面了。麻烦

diqiu598 发表于 2013-4-5 12:10:35

非常感谢,我测试下!
页: [1]
查看完整版本: 目录中有中文的采集不了内容页