visty 发表于 2014-7-7 16:49:46

咨询一下如何采集新浪新闻排行

工作上的需要,想用火车采集器采集新浪新闻的内容到自己的网站上。直接采集全部新闻觉得太杂太乱,没有代表性,所有就想采集新浪热门排行的文章,相对来说关注度高一点。新浪排行的地址如下:http://news.sina.com.cn/hotnews/,他采用的DIV很奇怪,我直接用DIV来确定采集的内容无效,软件找不到内容,用Xpath的方式也不行,请问各位同志有没有采集过相关的网站,出来帮小弟看看怎么定义规则比较好。

另外想说明一下,我只是想采集4个栏目的内容(国内、国际、体育、科技),而且只采集点击量排行,其他栏目的链接都不要,请大家帮帮忙,谢谢!!!!

lmj243 发表于 2014-7-7 23:10:52

JS文件里有, 做个JS解码就可以

visty 发表于 2014-7-8 08:34:21

lmj243 发表于 2014-7-7 23:10 static/image/common/back.gif
JS文件里有, 做个JS解码就可以

JS解码在哪里,能说清楚点嘛
页: [1]
查看完整版本: 咨询一下如何采集新浪新闻排行