火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 3634|回复: 5

请问采集到这样的链接列表 怎么采集到页面的内容呢

[复制链接]
发表于 2008-1-3 03:59:35 | 显示全部楼层 |阅读模式

  1. <div id="resList">
  2.    <ol id="archiveResourceList" start="101">
  3. <li><a href="/topics/164512/">《Fedora 7 多国语言 x86_64 DVD版》Fedora 7[ISO]</a></li>
  4. <li><a href="/topics/168624/">《红帽企业 Linux 5》(RedHat Enterprise Linux 5 Server)[Bin]</a></li>
  5. <li><a href="/topics/170608/">《苹果操作系统》(Mac OS X Tiger 10.4.9 X86)[ISO]</a></li>
  6. <li><a href="/topics/170814/">《操作系统》(SkyOS v5.0 6573 BETA)[ISO]</a></li>
  7. <li><a href="/topics/172724/">《乌班图》(ubuntu)ubuntu 7.04[ISO]</a></li>
  8. <li><a href="/topics/186023/">《SkyOS 操作系统》v5.0.6763.BETA-ARNiSO [ISO]</a></li>
  9. <li><a href="/topics/190853/">《中日韩联合开发 - Asianux Server 3》(Asianux Server 3.0)[ISO]</a></li>
  10. <li><a href="/topics/195239/">《openSUSE 10.3 正式版本》(openSUSE 10.3 )10.3 [ISO]</a></li>
  11. <li><a href="/topics/196620/">《MandrivaLinux 2008 正式版》(Mandriva Linux 2008 Final)[ISO]</a></li>
  12. <li><a href="/topics/197164/">《Mandriva 2008 加强版》(Mandriva 2008 PowerPack)包含32位及64位版本[ISO]</a></li>
  13. <li><a href="/topics/198643/">《红旗Linux桌面版6.0》(Red Flag Linux Desktop)6.0[ISO]</a></li>
  14. <li><a href="/topics/199187/">《Ubuntu》(Ubuntu)7.10正式版[ISO]</a></li>
  15. <li><a href="/topics/204742/">《Linux系统》(Green Operating System 1.0.1 Live CD)[ISO]</a></li>
  16. <li><a href="/topics/205205/">《狼人-Fedora 8正式版》(Fedora 8 i386 DVD Final Release)[ISO]</a></li>
  17. <li><a href="/topics/205475/">《苹果最新系统10.5 Leopard》(Mac OS X LEOPARD)10.5</a></li>
  18. <li><a href="/topics/206545/">《红帽企业 Linux 5》(RedHat Enterprise Linux 5 Update 1)x32,x64,ia64,ppc[ISO]</a></li>
  19. <li><a href="/topics/207757/">《狼人》(Fedora 8 x86_64)8.0 x86_64[ISO]</a></li>
  20. <li><a href="/topics/208424/">《Ubuntu 最小精简版》(Ubuntu JeOS)[ISO]</a></li>
  21. <li><a href="/topics/214316/">《社区企业操作系统》(CentOS)5.1[ISO]</a></li>
  22. <li><a href="/topics/219096/">《苹果美洲豹系统PC版》(iATKOS_v1.0i)[ISO]</a></li>
  23. </ol>
复制代码

[ 本帖最后由 vitree 于 2008-1-3 04:03 编辑 ]
 楼主| 发表于 2008-1-3 04:01:35 | 显示全部楼层
因为 href="/topics/219096/
后面没有index.htm或者其他*.htm
我无法用火车头采集到网页内容

请问高手怎么做呢 谢谢了

我想采集的是http://www.verycd.com/topics/219096/
http://www.verycd.com/topics/21901/
http://www.verycd.com/topics/21902323/

这样的链接

[ 本帖最后由 vitree 于 2008-1-3 04:02 编辑 ]
发表于 2008-1-3 08:00:11 | 显示全部楼层
发表于 2008-1-3 09:18:12 | 显示全部楼层
用自定义或正则试试
 楼主| 发表于 2008-1-4 15:17:42 | 显示全部楼层
原帖由 oldsword 于 2008-1-3 08:00 发表
http://www.verycd.com/topics/219096/index.htm
后面加上index.htm


这个方法不太现实。。虽然可行。。
 楼主| 发表于 2008-1-4 15:18:12 | 显示全部楼层
原帖由 rq204 于 2008-1-3 09:18 发表
用自定义或正则试试



一时间不知道怎么使用自定义 能告诉我么
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2025-5-23 06:59

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表