|
由于本人是菜鸟,看了网上的教程是采集163娱乐的(http://ent.163.com/)。我也跟着做了,内容的过滤什么的都搞好了,可惜里面只有采集内容的教程,没有采集网址的,我的意思是采集网址的规则没搞好。先查看了一下每条信息的网址全部是以时间来标签的,所以没有办法,只有采集了。
以下是部分代码:
<a href="http://ent.163.com/08/0118/16/42GKSQHA00031H2L.html">黄秋生横店拍戏 携洋妞吃火锅促膝长谈(组图)</a><span></span></li>
<li><a href="http://ent.163.com/08/0118/08/42FQEJ3P00031H2L.html">许志安被曝踢走痴情女助手与郑秀文复合</a><span></span></li>
<li><a href="http://ent.163.com/08/0119/09/42IFQIJ200031H2L.html">袁咏仪复出演电视赶工忙 片场打哈欠露疲态(图)</a>
请问一下怎么设置采集网址的规则,还有问一下我一直不懂怎么翻页采集网址。 |
|