求一个网址的采集规则,小弟初来乍练,还请各位帮帮忙!
http://www.game.com.cn/game/shoot/airportops.html像这样的地址后面的“shoot”和“airportops”是动态的!就是说不同的游戏类型和游戏名字不一样,我想写采集网址规则不知道怎么写!希望大家帮帮忙! 补充一下,就是说我想采集成http://www.game.com.cn/game/*/*.html
*就是任何字符!但是我不知道在规则里怎么写啊?希望各位帮帮忙!我使用正则表达式来采集还是用批量、分页采集?具体应该怎么做!希望哪位好心告诉我一下! 很简单呀,几个栏目用一个规则就行,比如射击类http://www.game.com.cn/game/shoot/?pg=(*)然后设置一下页面选定区域采集网址范围 问一下那?pg=(*)是哪来的?另外说一下,我这个只是举个例子,如果游戏类型特别多的话怎么办?也得每个手动写?不能使用一个通配符之类的吗? 怎么都没人回答啊?
页:
[1]