【求助】采集结果由一级网址和二级网址的内容拼接而成
本帖最后由 xiao12 于 2010-6-11 19:16 编辑本人由于学位论文需要需要采集数据进行分析,希望各位大牛帮忙,小女子感激不尽~~~~
查看教程发现可以实现“使用多页同时采集多个页面”,但只能由一个确定的默认网址进行关联。
我的需求稍微要复杂一点,默认网址的结构如下所示,据此可以采集到每条微博的内容、作者。
但我希望结果还包含作者的其他信息(如所在城市、标签等),而这些信息可根据链接(如http://t.sina.com.cn/bingcon)到微博作者的详细页面采集,有什么方法能够把最后结果整合为“内容、作者、作者所在城市”呢?
<ul class="MIB_feed">
<li class="MIB_linedot2">
<p class="sms" mid="21110061116485" type="1">
<a href="http://t.sina.com.cn/bingcon">大小鱼炳</a>:
看车展 迎世界杯 现代ix35 世界杯
</p>
</li>
<li class="MIB_linedot2">
<p class="sms" mid="21110061116500" type="1">
<a href="http://t.sina.com.cn/1747530103">小云深深</a>:
一个拒绝别人圈钱失去发财机会的故事(股市神话东方一千零一夜)
</p>
</li>
</ul>
联系QQ详谈979514383 多页采集可以解决 qq 1073313989 找人写火车头发布模板联系qq748354404
页:
[1]