内容采集的原则是什么
我想请问下站长关于内容采集的中心原则是什么?我采集新浪的文章内容采集规则通过几次测试就搞定了,但今天采集“中华人民共和国政府网”的一篇新闻时,明明已经把新闻内容的开头代码与结尾代码找到了,但是内容测试采集就是不显示。我在此想问下站长关于内容采集或其他采集关键在哪里,开头有的代码,结尾是否一定要有,还有那些参数是需要用“*”代替的等等??
关于“中华人民共和国政府网”的一篇新闻采集时,我已经把代码缩减显示,都可以显示,但在软件中不能显示。
其实火车头采集就是把我们平常的复制黏贴用电脑程序代替而已,应该简单的吧?
附代码
table width="95%" border="0" cellspacing="0" cellpadding="0" align="center">
<tr>
<td class="p1"><font id="Zoom">
<p> 新华社阿斯塔纳10月31日电(魏良磊 罗辉)国务院总
理温家宝31日在阿斯塔纳同哈萨克斯坦总理马西莫夫举行会谈。</p>
<p> 会谈结束后,两国总理出席了海关、卫生、农业、银行、
能源、科技等领域合作文件的签字仪式。双方还发表了两国政府联合公报(全文另发),
并共同会见了记者。</p>
<p align="center"><a href="../../wjb/index.htm" target="_blank"
title="http://www.gov.cn/ldhd/wjb/index.htm"><font color="#820201"><img
align="middle" border="0" height="65" hspace="0"
src="../../images/463e615713320a7514ab01.jpg" width="410"/></font></a></p>
我使用
开头<td class="p1"><font id="Zoom">
<p>
结尾</p>
采集不到,我想是否会是“p1”要用“*”代替嘛? 还有代码的位置摆放有规则嘛,尤其是结尾代码以及第二行代码的位置,好像有时位置非常有影响 原则是开始代码必须是在内容开始以上要唯一的代码,结束代码必须在开始到内容结束的唯一代码。 谢谢,我试了一试,成功了,但又碰到新问题,再多页采集时,其连续的页码无规律排列,无法连续采集,怎么办,请高手指教!!
页:
[1]