火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 9625|回复: 11

我采集了搜狗图片网站,巨爽呀!

[复制链接]
发表于 2008-5-12 20:32:00 | 显示全部楼层 |阅读模式
http://www.sootop.com/

欢迎大家访问呀,哈哈!

http://www.sootop.com/d.html?w=05072901&cate=152&g=0&grp=54c5a2748200098d.jpg

程序是vus520写的.Good,赞一个!!
发表于 2008-5-12 22:50:46 | 显示全部楼层
什么程序?就是你网站的这个
发表于 2008-5-12 22:54:19 | 显示全部楼层
这不是程序,而是一个采集小偷.

http://tu.pic.sogou.com/

比较简单.
发表于 2008-5-12 23:02:31 | 显示全部楼层
哈哈,我采集到了google和百度的图片,也很爽,百度不支持盗链的哦。 http://www.cnajol.com/1 ,我还准备把yahoo图片和sogoo图片也加入进去。

[ 本帖最后由 sushy 于 2008-5-12 23:04 编辑 ]
发表于 2008-5-12 23:13:10 | 显示全部楼层
楼上的,速度有点慢.

采集Sogou的套图确实很难,给楼主做的这个东西也花了不少时间

确实,需要把图片本地化,当然,这个一点也不难,嘿嘿.
发表于 2008-5-12 23:57:19 | 显示全部楼层
速度比较慢因为要重写图片的缘故,百度是有防盗链系统的,直接复制百度的图片地址看不到这个图片,所以只有重写了,这样先下载到服务器上再传回本地就比较慢一点了。而且这个程序支持对任何防盗链网站的图片的HACK。百度上看大图看不到的,只要图片原始地址正确,都能显示,不会出现"网站防盗链,正在转向……“这样的错误提示。
发表于 2008-5-13 00:10:27 | 显示全部楼层
这个也可以,不过,你发现没,就Sogou图片来说,他这里没有出现任何一个图片地址
这没有必要本地化图片.

你的那个图片程序不错,后台有多少数据?
我整理到了DEDE
http://www.sootop.com/noveldownload/MM_photo/
发表于 2008-5-13 00:16:31 | 显示全部楼层
一共有4个文件,index.asp ,function.asp,mimipic.asp 和一个Cache.asp文件,第一个文件就是主程序,第二个文件function程序,由于百度是gb2312的,google是utf-8的,所以采集的时候稍微麻烦一点,参考了下sk采集,第三个文件是对防盗链文件的重写,本来想把minipic.asp程序写入function.asp的,后来发现不太可能。所以一共就用了三个程序。具体cache.asp可能是缓冲的,直接从网上复制的,也不清楚它的作用。
4个文件16.3k,由于是针对目标站做的,没有垃圾代码,所以算是比较小了。
发表于 2008-5-13 00:30:41 | 显示全部楼层
对于顶楼的网站,我想是直接hack过来后,调整链接的吧?这样的话,如果设置好的话,只要和原来的网站一一对应的文件名制作文件就可以了。麻烦的事情可能是javascript中的链接的重写。不过楼主还是需要花一番功夫的,呵呵,做到尽善尽美,丝毫不漏,还是有改进的空间的。

我做这个程序的时候,遇到的第一个问题,就是编码的问题。如果用gb2312采集google,肯定乱码。如果用网页用utf-8,那么简体中文是不能识别的。

其次需要解决的问题就是google源码中有21个图片,显示18个,最后三个和下一页是重复的,要去掉。考虑到最后一页可能不足18个图片,比如15个图片。

第三个问题,考虑的是假如百度某个关键词百度只有100页,而google有150页,那么如何做才不至于使网页出错。

第四个问题,就是每行显示几个。我打算将这个设置交给用户调节,每行显示 3个 4个 5个 还是6个。

第五个问题,就是百度和google都是打开新页面,新页面上有缩略图和元网站网页。我要让它直接限制原网站的大图。下面的网址也要重写,这方面的过滤需要用到正则(我对这块很默认,呵呵)
发表于 2008-5-13 00:49:06 | 显示全部楼层
看到楼上的分析,也确实,编码这个问题比较难搞定,出了这样那样的问题,后来终于解决了,速度与界面显示上都是完美的了.改了显示页面的编码,一个网站,三种编码输出,最后还是兼容了.

感谢大家支持,祝大家就个好心情...
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2025-5-22 12:34

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表