a15927012904 发表于 2009-12-14 22:36:01

分享一个采集技巧,帮一个会员做的

本帖最后由 a15927012904 于 2009-12-14 22:39 编辑

查看原文:采集一个表格然后导入excel中

要求:http://web.72erp.com:8080/sangon/product/ProductViewList.jsp?classID=6&productCode=&productName=&page=1&rd=0.9272518654611335
的179页表格,然后将数据导入excel中。
采集思想:将每个表格也当作是一个列表页,然后表格的每列当作是每篇文章。接下来主要是在采集网址规则上下功夫,

以前仅能通过自定义格式在列表页采集到网址和缩略图,2009版起,可以自设置标签,在采集网址的同时采集列表页的内容, [*]并同时可以保存到数据库内,发布时该标签和在内容页规则内定义的标签调用方式相同把标签(这里要采集产品名称,包装,单价(元),产品编号)做到采集网址规则这一步。
查看源代码,然后找到一个代码单元,如:

[*]<TR
class=row1><TD
width='130px'
align='left'
height=22px> 11</TD><TD
width='420px'
align='left'
height=22px> 试剂一批</TD><TD
width='180px'
align='left'
height=22px> 1</TD><TD
width='100px'
align='left'
height=22px> 10.0</TD><TD
width='134px'> </TD></TR>于是轻车熟路,我们用(*)代替无关内容,(开头处的的<TR class=row1,后面还有<TR class=row2,于是用(*)代替变化数字),依次用[标签:XXX]替换掉这里要采集的内容,因为这里没有内容页的,所以我们需要编造一些内容页网址,考虑到产品编号是不容的,所以就决定将产品编号作为文章内页网址的一部分(1.只有这样才能搞到不同的文章网址,否则火车会报采集网址重复2.您可能还有一个疑问,那产品编号岂不是采集不到了?好问题,我们留到后面讲)

将产品编号处的代码用[参数]代替,然后我替换完了的代码如下
[*]<TR
class=row(*)><TD
width='130px'
align='left'
height=22px> [参数]</TD><TD
width='420px'
align='left'
height=22px> [标签:产品名称]</TD><TD
width='180px'
align='left'
height=22px> [标签:包装]</TD><TD
width='100px'
align='left'
height=22px> [标签:单价]</TD><TD
width='134px'> </TD></TR>然后我的网址实际链接处填
[*]http://www.caijii.cn/[参数1]
http://www.caijii.cn/uploads/allimg/091210/1_091210124157_1.JPG
测试采集,看是不是可以采集到网址了!

http://www.caijii.cn/uploads/allimg/091210/1_091210124307_1.JPG
测试采集,OK!
采集到的这些网址链接到都是我的404网页不存在页面,采集内容设置我们去掉默认的那些标签,不做设置,发布内容设置也不动。
然后我们保存任务,开始采集即可。
任务运行完了,在任务上点击右键,选打开DATA下任务文件夹,找到SpiderResult.mdb这个数据库文件,用excel打开,选content表,然后将ID,已采,已发,缩略图,处理中等无关列删除,选中PageUrl列,然后ctrl+F,切换到替换选项卡,在查找内容处填写“http://www.caijii.cn/”,全部替换即可得到产品编号了。
http://www.caijii.cn/uploads/allimg/091210/1_091210123932_1.jpg
excel中设置替换


原文地址,采易网,希望大家多多支持,陆续会有更多技巧放出!

论坛政要 发表于 2009-12-15 00:10:05

在这里发链接无效的。

在雨中 发表于 2009-12-16 00:05:12

好强啊,支持lz!!
页: [1]
查看完整版本: 分享一个采集技巧,帮一个会员做的