高手帮忙看下如何采集这个网站,谢谢!
http://www.jukuu.com就是这个网站需要输入一个单词,查询后得到页面
比如输入:Commerce,就会得到
http://www.jukuu.com/show-Commerce-0.html
这个页面
其中
show-后的
Commerce-0
是单词变量+分页变量
.html
请问:
我如何采集大学英语二年级所有单词的对应例句库呢,大概有4000多个单词,也不知道有多少页,非常感谢啊!采集后的双语句子是教学生用的。
再次感谢啊!! 做个BDT文件,按要求生成网址,采集的都设置为0-9这10页,因为查询只显示100条信息的.或者自己修改http://www.jukuu.com/show-*-(0_9).html查询的单词,100条100条的采集,我只能这么建议了..哈哈 非常感谢啊,能具体点吗,我是个新手,今天第一次用火车头啊。 再次感谢,严重感谢!! 很多时候,要自己动手试试. 多页采集你不会吗 写个软件或者批处理生成网址。
页:
[1]