whj888 发表于 2007-11-21 20:05:55

高难度采集 高手来看看能不能采

这里是有道的搜索,http://www.yodao.com/search?q=%E9%87%87%E9%9B%86&ue=utf8&keyfrom=web.index

采集有道的预览内容,火车能办到吗?

fal 发表于 2007-11-21 20:40:02

还当打开了百度..................是要采左下角的那个预缆?

shenzhu 发表于 2007-11-21 20:54:32

占个位

vus520 发表于 2007-11-21 23:44:39

高难度!

看了一眼,走人,有时间再过来看看有没有高手解出!
一句话,没有采集不到的网站!!

走人!!

fal 发表于 2007-11-22 21:03:10

单从效果上可以采.
从技术上采不出来.
这个预览是用dwr动态生成.找不到他现成的结果源码.不知道对AJAX熟悉的人有没有办法.
如果只要完成这个效果的话,可以做到.
这个预览的结果本身也算一个采集,对比预览,快照,实际页面来看,是从该网址的快照里采集出来的.
采集的结果是快照的纯文字版本,去处了图片,多媒体元素.
有些预览里排除了导航版权,有些没有.可见对常见的导航方式,版权方式也做了排除.
并且对所有的关键字做了替换.还有对字数做了个限制.
所以只要完成这个效果.可以直接对快照进行采集,

whj888 发表于 2007-11-24 10:01:18

如果直接采集快照,过滤是一个大难题,因为不同站规则是不同的,特别是导航和版权部分。

如果可以采集有道预览内容,就可以按关键来同时采集多个站点的内容,而且规则只要写好一次,就可以通杀了。

fal 发表于 2007-11-24 15:23:11

看如何想吧.
有道的过滤也不完全.很多网站的导航和版权一样没过滤掉:ali11ls
而且采集要的是效果,没有必要和对方做的一模一样的.
页: [1]
查看完整版本: 高难度采集 高手来看看能不能采