我采集了搜狗图片网站,巨爽呀!
http://www.sootop.com/欢迎大家访问呀,哈哈!
http://www.sootop.com/d.html?w=05072901&cate=152&g=0&grp=54c5a2748200098d.jpg
程序是vus520写的.Good,赞一个!! 什么程序?就是你网站的这个 这不是程序,而是一个采集小偷.
http://tu.pic.sogou.com/
比较简单. 哈哈,我采集到了google和百度的图片,也很爽,百度不支持盗链的哦。 http://www.cnajol.com/1 ,我还准备把yahoo图片和sogoo图片也加入进去。
[ 本帖最后由 sushy 于 2008-5-12 23:04 编辑 ] 楼上的,速度有点慢.
采集Sogou的套图确实很难,给楼主做的这个东西也花了不少时间
确实,需要把图片本地化,当然,这个一点也不难,嘿嘿. 速度比较慢因为要重写图片的缘故,百度是有防盗链系统的,直接复制百度的图片地址看不到这个图片,所以只有重写了,这样先下载到服务器上再传回本地就比较慢一点了。而且这个程序支持对任何防盗链网站的图片的HACK。百度上看大图看不到的,只要图片原始地址正确,都能显示,不会出现"网站防盗链,正在转向……“这样的错误提示。 这个也可以,不过,你发现没,就Sogou图片来说,他这里没有出现任何一个图片地址
这没有必要本地化图片.
你的那个图片程序不错,后台有多少数据?
我整理到了DEDE
http://www.sootop.com/noveldownload/MM_photo/ 一共有4个文件,index.asp ,function.asp,mimipic.asp 和一个Cache.asp文件,第一个文件就是主程序,第二个文件function程序,由于百度是gb2312的,google是utf-8的,所以采集的时候稍微麻烦一点,参考了下sk采集,第三个文件是对防盗链文件的重写,本来想把minipic.asp程序写入function.asp的,后来发现不太可能。所以一共就用了三个程序。具体cache.asp可能是缓冲的,直接从网上复制的,也不清楚它的作用。
4个文件16.3k,由于是针对目标站做的,没有垃圾代码,所以算是比较小了。 对于顶楼的网站,我想是直接hack过来后,调整链接的吧?这样的话,如果设置好的话,只要和原来的网站一一对应的文件名制作文件就可以了。麻烦的事情可能是javascript中的链接的重写。不过楼主还是需要花一番功夫的,呵呵,做到尽善尽美,丝毫不漏,还是有改进的空间的。
我做这个程序的时候,遇到的第一个问题,就是编码的问题。如果用gb2312采集google,肯定乱码。如果用网页用utf-8,那么简体中文是不能识别的。
其次需要解决的问题就是google源码中有21个图片,显示18个,最后三个和下一页是重复的,要去掉。考虑到最后一页可能不足18个图片,比如15个图片。
第三个问题,考虑的是假如百度某个关键词百度只有100页,而google有150页,那么如何做才不至于使网页出错。
第四个问题,就是每行显示几个。我打算将这个设置交给用户调节,每行显示 3个 4个 5个 还是6个。
第五个问题,就是百度和google都是打开新页面,新页面上有缩略图和元网站网页。我要让它直接限制原网站的大图。下面的网址也要重写,这方面的过滤需要用到正则(我对这块很默认,呵呵) 看到楼上的分析,也确实,编码这个问题比较难搞定,出了这样那样的问题,后来终于解决了,速度与界面显示上都是完美的了.改了显示页面的编码,一个网站,三种编码输出,最后还是兼容了.
感谢大家支持,祝大家就个好心情...
页:
[1]
2