本人是个小菜鸟,今天采集了一次遇了点小问题
由于本人是菜鸟,看了网上的教程是采集163娱乐的(http://ent.163.com/)。我也跟着做了,内容的过滤什么的都搞好了,可惜里面只有采集内容的教程,没有采集网址的,我的意思是采集网址的规则没搞好。先查看了一下每条信息的网址全部是以时间来标签的,所以没有办法,只有采集了。以下是部分代码:
<a href="http://ent.163.com/08/0118/16/42GKSQHA00031H2L.html">黄秋生横店拍戏 携洋妞吃火锅促膝长谈(组图)</a><span></span></li>
<li><a href="http://ent.163.com/08/0118/08/42FQEJ3P00031H2L.html">许志安被曝踢走痴情女助手与郑秀文复合</a><span></span></li>
<li><a href="http://ent.163.com/08/0119/09/42IFQIJ200031H2L.html">袁咏仪复出演电视赶工忙 片场打哈欠露疲态(图)</a>
请问一下怎么设置采集网址的规则,还有问一下我一直不懂怎么翻页采集网址。 yong ye mian xuan ze ya 页面选择是什么东西?
还有我看见一个人的博客好牛。。。
http://hi.baidu.com/cpcc/blog/category/%C4%AC%C8%CF%B7%D6%C0%E0
提交的文章是HTML代码。。。。
顺便问一下百度博客的WEB发布模块怎么用?
有人做一下教程吗? 还有的一个问题
怎么在百度空间中提交HTML代码? 百度空间的采集模块的问题是
它老说什么要获取列表
什么意思? 额..不明白.楼主截个出问题的图来看看 百度空间现在未出现使用问题
页:
[1]