请问采集到这样的链接列表 怎么采集到页面的内容呢
<div id="resList">
<ol id="archiveResourceList" start="101">
<li><a href="/topics/164512/">《Fedora 7 多国语言 x86_64 DVD版》Fedora 7</a></li>
<li><a href="/topics/168624/">《红帽企业 Linux 5》(RedHat Enterprise Linux 5 Server)</a></li>
<li><a href="/topics/170608/">《苹果操作系统》(Mac OS X Tiger 10.4.9 X86)</a></li>
<li><a href="/topics/170814/">《操作系统》(SkyOS v5.0 6573 BETA)</a></li>
<li><a href="/topics/172724/">《乌班图》(ubuntu)ubuntu 7.04</a></li>
<li><a href="/topics/186023/">《SkyOS 操作系统》v5.0.6763.BETA-ARNiSO </a></li>
<li><a href="/topics/190853/">《中日韩联合开发 - Asianux Server 3》(Asianux Server 3.0)</a></li>
<li><a href="/topics/195239/">《openSUSE 10.3 正式版本》(openSUSE 10.3 )10.3 </a></li>
<li><a href="/topics/196620/">《MandrivaLinux 2008 正式版》(Mandriva Linux 2008 Final)</a></li>
<li><a href="/topics/197164/">《Mandriva 2008 加强版》(Mandriva 2008 PowerPack)包含32位及64位版本</a></li>
<li><a href="/topics/198643/">《红旗Linux桌面版6.0》(Red Flag Linux Desktop)6.0</a></li>
<li><a href="/topics/199187/">《Ubuntu》(Ubuntu)7.10正式版</a></li>
<li><a href="/topics/204742/">《Linux系统》(Green Operating System 1.0.1 Live CD)</a></li>
<li><a href="/topics/205205/">《狼人-Fedora 8正式版》(Fedora 8 i386 DVD Final Release)</a></li>
<li><a href="/topics/205475/">《苹果最新系统10.5 Leopard》(Mac OS X LEOPARD)10.5</a></li>
<li><a href="/topics/206545/">《红帽企业 Linux 5》(RedHat Enterprise Linux 5 Update 1)x32,x64,ia64,ppc</a></li>
<li><a href="/topics/207757/">《狼人》(Fedora 8 x86_64)8.0 x86_64</a></li>
<li><a href="/topics/208424/">《Ubuntu 最小精简版》(Ubuntu JeOS)</a></li>
<li><a href="/topics/214316/">《社区企业操作系统》(CentOS)5.1</a></li>
<li><a href="/topics/219096/">《苹果美洲豹系统PC版》(iATKOS_v1.0i)</a></li>
</ol>
[ 本帖最后由 vitree 于 2008-1-3 04:03 编辑 ] 因为 href="/topics/219096/
后面没有index.htm或者其他*.htm
我无法用火车头采集到网页内容
请问高手怎么做呢 谢谢了:ali0ls
我想采集的是http://www.verycd.com/topics/219096/
http://www.verycd.com/topics/21901/
http://www.verycd.com/topics/21902323/
这样的链接
[ 本帖最后由 vitree 于 2008-1-3 04:02 编辑 ] http://www.verycd.com/topics/219096/index.htm
后面加上index.htm 用自定义或正则试试 原帖由 oldsword 于 2008-1-3 08:00 发表 http://bbs.locoy.com/images/common/back.gif
http://www.verycd.com/topics/219096/index.htm
后面加上index.htm
这个方法不太现实。。虽然可行。。:( 原帖由 rq204 于 2008-1-3 09:18 发表 http://bbs.locoy.com/images/common/back.gif
用自定义或正则试试
一时间不知道怎么使用自定义:( 能告诉我么
页:
[1]