地狱刺客 发表于 2011-3-1 09:33:15

三级页面采集问题

网站整体风格为:首页包含大分类;大分类下有小分类;小分类下是我想采集的数据。
我想从首页下抓取,如何操作。{:4_193:} {:4_193:}

kuhabe 发表于 2011-3-1 09:57:11

你好,可以把网址贴出来,大家才能试着给你建议!

西洋菜 发表于 2011-3-1 10:28:25

我也想看下大家是怎么做的……

wxl08 发表于 2011-3-1 10:44:41

一个规则采集不了三级网址,可以考虑用两个规则来采集:第一个规则采集大分类地址并将其发布为txt文本,第二个规则添加向导时使用文本导入模式,导入第一个规则采集的网址,网址深度为2,采集小分类地址及内容

地狱刺客 发表于 2011-3-2 15:20:47

http://www.paper.edu.cn//index.php/default/journal/display_journal_subject/790
我想把这个网页论文题目 作者 期刊等信息都提出来,而且题目 作者 出版日期 要一一对应;
有办法吗
页: [1]
查看完整版本: 三级页面采集问题