新手请教,采集的时候总出错,最后存到软件数据库的文件可否导出?
新手请教,采集的时候总出错,最后存到软件数据库的文件可否导出?程序运行中总是会自己卡死,
不知道是不是因为我机器性能和网络情况的原因。
有没有办法限制一下运行时消耗的资源,总卡死,有些受不了。 http://eladies.sina.com.cn/jkzc/sex/index.html
这个页面该怎么采呀,实在弄不懂,请教高手 你上边这个页面很好采集哦^_^
用自定义采集区域来采集网址
开始部分用:<input type=submit name=enter value="搜索"></td>
结束部分用:“函数名称:分页跳转”
必须包含:eladies.sina.com.cn/x/
这样应该就可以了^_^ 谢谢 天毅兄的回答,不过我按你教的试了,按1级深度测试,找到1个1级目录和2个0级页面。然后我设置成2级深度测试出一大堆网址,几乎把整个新浪网都扫描了一遍。现在还没有结束呢。
另外,我不明白,为什么要设开始部分开始部分用:<input type=submit name=enter value="搜索"></td>
在上边这部分到采集标题之间,有好大一堆代码呀!!!为什么不从标题前边开始采集呢???
重新采集的时候程序又出错了。唉,,怎么总会这样呢,你们也遇到过这样的问题吗?
[ 本帖最后由 ok123zyz 于 2006-11-14 13:23 编辑 ] 按天毅兄的方法,把必须包含:eladies.sina.com.cn/x/
写到文章列表页面地址必须包含项里边,,测试出来59个网址。但好像没有我要采集的目标页面,这是怎么回事??? 目标地址重复,换个地址
回复 #6 二亩一 的帖子
想请教一下,什么叫“目标地址重复”,换个地址,换哪个地址。请详细些,偶是新人,看不太懂。 原帖由 ok123zyz 于 2006-11-14 02:55 发表新手请教,采集的时候总出错,最后存到软件数据库的文件可否导出?
程序运行中总是会自己卡死,
不知道是不是因为我机器性能和网络情况的原因。
有没有办法限制一下运行时消耗的资源,总卡死,有些受不了。
可以导出 机器的好坏在火车3.0这里很关键的,你采的越多,电脑就越卡,内存CPU都占用越多。
页:
[1]