|
|
范例说明:
比如此列表地址:
http://bbs.eachnet.com/forum_200000020_0_0_0_279.html
可以很轻易的获取其中的列表地址
问题的关键在于,实际上要采集的地址,在每篇文章中他又使用 script 给隐藏起来了
比如:
<script src=http://mirror.community.eachnet.com/readcache_200000020_1200385291,1200385418,1200385422,1200385558,1200385559,1200386792,1200386812,1200386819,1200386854,1200386860_12082688266.html></script>
这样就又需要提取 script 中间嵌入的地址才能够采集
理论上是完全可以采集到的,但是怎样设置呢?
谢谢! |
|