ok123zyz 发表于 2006-11-14 02:55:47

新手请教,采集的时候总出错,最后存到软件数据库的文件可否导出?

新手请教,采集的时候总出错,最后存到软件数据库的文件可否导出?

程序运行中总是会自己卡死,
不知道是不是因为我机器性能和网络情况的原因。
有没有办法限制一下运行时消耗的资源,总卡死,有些受不了。

ok123zyz 发表于 2006-11-14 03:18:09

http://eladies.sina.com.cn/jkzc/sex/index.html

这个页面该怎么采呀,实在弄不懂,请教高手

天毅 发表于 2006-11-14 08:35:03

你上边这个页面很好采集哦^_^

用自定义采集区域来采集网址
开始部分用:<input type=submit name=enter value="搜索"></td>
结束部分用:“函数名称:分页跳转”
必须包含:eladies.sina.com.cn/x/

这样应该就可以了^_^

ok123zyz 发表于 2006-11-14 13:19:12

谢谢 天毅兄的回答,不过我按你教的试了,按1级深度测试,找到1个1级目录和2个0级页面。然后我设置成2级深度测试出一大堆网址,几乎把整个新浪网都扫描了一遍。现在还没有结束呢。

另外,我不明白,为什么要设开始部分开始部分用:<input type=submit name=enter value="搜索"></td>

在上边这部分到采集标题之间,有好大一堆代码呀!!!为什么不从标题前边开始采集呢???

重新采集的时候程序又出错了。唉,,怎么总会这样呢,你们也遇到过这样的问题吗?

[ 本帖最后由 ok123zyz 于 2006-11-14 13:23 编辑 ]

ok123zyz 发表于 2006-11-14 13:30:20

按天毅兄的方法,把必须包含:eladies.sina.com.cn/x/
写到文章列表页面地址必须包含项里边,,测试出来59个网址。但好像没有我要采集的目标页面,这是怎么回事???

二亩一 发表于 2006-11-14 15:47:23

目标地址重复,换个地址

ok123zyz 发表于 2006-11-15 14:45:20

回复 #6 二亩一 的帖子

想请教一下,什么叫“目标地址重复”,换个地址,换哪个地址。请详细些,偶是新人,看不太懂。

rq204 发表于 2006-11-15 17:31:37

原帖由 ok123zyz 于 2006-11-14 02:55 发表
新手请教,采集的时候总出错,最后存到软件数据库的文件可否导出?

程序运行中总是会自己卡死,
不知道是不是因为我机器性能和网络情况的原因。
有没有办法限制一下运行时消耗的资源,总卡死,有些受不了。
可以导出

freeall 发表于 2006-11-18 20:56:45

机器的好坏在火车3.0这里很关键的,你采的越多,电脑就越卡,内存CPU都占用越多。
页: [1]
查看完整版本: 新手请教,采集的时候总出错,最后存到软件数据库的文件可否导出?