02bx 发表于 2010-4-12 11:28:57

求解:论坛采集图片过程中出现的几个问题,求点解决的思路!

本帖最后由 02bx 于 2010-4-12 11:30 编辑

新手,学习火车头采集中……
http://bbs.voc.com.cn/forum-63-1.html   这个论坛应该是动网的吧,想弄来练习下的,结果出了好几个问题

1、论坛的图片是用函数的   内容标签的替换规则:
<a href="(*)" target=_blank><img src="                  替换成    [ i m g ]   
" border="0" onload="if(this.width>screen.width*0.7) this.width=screen.width*0.7;" (*)/>      替换成[ /i mg]
http://www.tcm-global.cn/attachments/            替换成   http://www.****.com/bbs/tupian/
在采集页面测试中,里面的图片变成<img src="http://www.****.com/bbs/tupian/201004/201004121111172.gif" />这个是没错的了,但是把资料采集到本地txt文件之后,却发现txt文件里面的地址都没有错,但是需要采集的图片根本就没有采集到,采集下来的图片却不知是从哪里下载下来的,和txt文件里面的图片对不上号?不知是哪个地方出错了?

2、里面有些图片是按不同的时间放在不同的文件夹里面的,但是采集下来的图片,全部放在一个文件夹下面了,这个要怎么处理哦?不会是手工新建文件夹再把相应的图片拉进去吧?这个问题怎么处理?

3、论坛的回复问题,里面有很多的回复都是一个 路过、支持 之类的表情图片,采集之后,文件夹里面的图片绝大部分都是这些相同的,但是名称不同的图片,有没有什么办法可以将这些表情图片的不要采集或者是采集的表情不要重复的

4、火车头采集过的页面,再次采集的话,会自动跳过的,可能是因为火车头的数据库里面已经有历史记录了,我应该怎么将我要重新采集的页面的历史记录删掉,然后再从新采集哦?
页: [1]
查看完整版本: 求解:论坛采集图片过程中出现的几个问题,求点解决的思路!