火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 3559|回复: 6

高难度采集 高手来看看能不能采

[复制链接]
发表于 2007-11-21 20:05:55 | 显示全部楼层 |阅读模式
这里是有道的搜索,http://www.yodao.com/search?q=%E9%87%87%E9%9B%86&ue=utf8&keyfrom=web.index

采集有道的预览内容,火车能办到吗?
发表于 2007-11-21 20:40:02 | 显示全部楼层
还当打开了百度..................是要采左下角的那个预缆?
发表于 2007-11-21 20:54:32 | 显示全部楼层
占个位
发表于 2007-11-21 23:44:39 | 显示全部楼层
高难度!

看了一眼,走人,有时间再过来看看有没有高手解出!
一句话,没有采集不到的网站!!

走人!!
发表于 2007-11-22 21:03:10 | 显示全部楼层
单从效果上可以采.
从技术上采不出来.
这个预览是用dwr动态生成.找不到他现成的结果源码.不知道对AJAX熟悉的人有没有办法.
如果只要完成这个效果的话,可以做到.
这个预览的结果本身也算一个采集,对比预览,快照,实际页面来看,是从该网址的快照里采集出来的.
采集的结果是快照的纯文字版本,去处了图片,多媒体元素.
有些预览里排除了导航版权,有些没有.可见对常见的导航方式,版权方式也做了排除.
并且对所有的关键字做了替换.还有对字数做了个限制.
所以只要完成这个效果.可以直接对快照进行采集,
 楼主| 发表于 2007-11-24 10:01:18 | 显示全部楼层
如果直接采集快照,过滤是一个大难题,因为不同站规则是不同的,特别是导航和版权部分。

如果可以采集有道预览内容,就可以按关键来同时采集多个站点的内容,而且规则只要写好一次,就可以通杀了。
发表于 2007-11-24 15:23:11 | 显示全部楼层
看如何想吧.
有道的过滤也不完全.很多网站的导航和版权一样没过滤掉
而且采集要的是效果,没有必要和对方做的一模一样的.
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2025-5-23 12:35

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表