请问这样的页面可以使用多页采集吗?
我要采集的页面是:http://www.xiaoc.cc/c2/3183/
红色框部分就是要采集的地址列表,要点进取才知道电影的地址。
页面列表代码为:
<div class="urlList">
<h2><aclass="expland" title="点击展开/折叠" href="javascript:void(0)">在线点播服务器① <em>(新浪)</em></a></h2>
<div class="blank_4px"/>
<ul id="Url1" class="compress">
<li><a href="play01.html" target="_blank">家好月圆劲歌榜上</a></li>
<li><a href="play02.html" target="_blank">家好月圆劲歌榜下</a></li>
<li><a href="play03.html" target="_blank">家好月圆庆团圆上</a></li>
...
<li><a href="play43.html" target="_blank">粤语39</a></li>
<li><a href="play44.html" target="_blank">粤语40</a></li>
</ul>
<div class="blank_4px"/>
</div>
<div class="blank_4px"/>
<div class="urlList">
<h2><aclass="expland" title="点击展开/折叠" href="javascript:void(0)">在线点播服务器② <em>(新浪)</em></a></h2>
<div class="blank_4px"/>
<ul id="Url2" class="compress">
<li><a href="play001.html" target="_blank">国语1</a></li>
<li><a href="play002.html" target="_blank">国语2</a></li>
<li><a href="play003.html" target="_blank">国语3</a></li>
...
<li><a href="play038.html" target="_blank">国语38</a></li>
<li><a href="play039.html" target="_blank">国语39</a></li>
<li><a href="play040.html" target="_blank">国语40</a></li>
</ul>
<div class="blank_4px"/>
</div>
<div class="blank_4px"/>
开始我尝试使用采集多页:
最终的结果是无法循环所有的<li><a href="[参数]" target="_blank">(*)</a></li>
[ 本帖最后由 benfeng 于 2008-11-9 23:11 编辑 ] 多页,一个多页只能采一个页面而不能采集多个,如果你要采集多页的话,那么你那个不是这样写,比如,你电影有40部,那么,就等于你要40个多页才可以,<li><a href="[参数]" target="_blank">国语1</a></li>,要按这样,一般电影的会比较不好采。 问题就是电影的来源可能是一个,也可能是多个.
而一个来源的集数又是不确定的.:( 所以说电影的会比较不好采,另一个,编程不知道能不能实现,如果可以实现的话,那么你去付费请人去写一个接口,不过要标准版才可以使用接口。 我一直都不知道火车的接口是有什么用的,
网站的程序也是我自己写的(http://www.woikan.cn),所以我一般都是采集了之后直接把acc里面的数据导入mssql里面,然后再处理.
看来如果实在不行就自己写程序采集了.:Q
页:
[1]