li_bopr 发表于 2008-12-26 20:03:35

高手帮忙看下如何采集这个网站,谢谢!

http://www.jukuu.com就是这个网站
需要输入一个单词,查询后得到页面
比如输入:Commerce,就会得到
http://www.jukuu.com/show-Commerce-0.html
这个页面
其中
show-后的
Commerce-0
是单词变量+分页变量
.html

请问:
我如何采集大学英语二年级所有单词的对应例句库呢,大概有4000多个单词,也不知道有多少页,非常感谢啊!采集后的双语句子是教学生用的。

再次感谢啊!!

wwwpsk 发表于 2008-12-26 21:08:46

做个BDT文件,按要求生成网址,采集的都设置为0-9这10页,因为查询只显示100条信息的.或者自己修改http://www.jukuu.com/show-*-(0_9).html查询的单词,100条100条的采集,我只能这么建议了..哈哈

li_bopr 发表于 2008-12-26 21:32:06

非常感谢啊,能具体点吗,我是个新手,今天第一次用火车头啊。

li_bopr 发表于 2008-12-26 21:34:10

再次感谢,严重感谢!!

lovebaidu 发表于 2008-12-26 21:47:54

很多时候,要自己动手试试.

wwwpsk 发表于 2008-12-26 22:15:40

多页采集你不会吗

bd540 发表于 2008-12-27 14:19:02

写个软件或者批处理生成网址。
页: [1]
查看完整版本: 高手帮忙看下如何采集这个网站,谢谢!