内容采集的原则是什么

jxsrcj 发表于 2008-10-31 20:47:28

我想请问下站长关于内容采集的中心原则是什么？
我采集新浪的文章内容采集规则通过几次测试就搞定了，但今天采集“中华人民共和国政府网”的一篇新闻时，明明已经把新闻内容的开头代码与结尾代码找到了，但是内容测试采集就是不显示。我在此想问下站长关于内容采集或其他采集关键在哪里，开头有的代码，结尾是否一定要有，还有那些参数是需要用“*”代替的等等？？
关于“中华人民共和国政府网”的一篇新闻采集时，我已经把代码缩减显示，都可以显示，但在软件中不能显示。
其实火车头采集就是把我们平常的复制黏贴用电脑程序代替而已，应该简单的吧？

附代码

table width="95%" border="0" cellspacing="0" cellpadding="0" align="center">
<tr>
<td class="p1">
 新华社阿斯塔纳１０月３１日电（魏良磊罗辉）国务院总
理温家宝３１日在阿斯塔纳同哈萨克斯坦总理马西莫夫举行会谈。

 会谈结束后，两国总理出席了海关、卫生、农业、银行、
能源、科技等领域合作文件的签字仪式。双方还发表了两国政府联合公报（全文另发），
并共同会见了记者。
<a href="../../wjb/index.htm" target="_blank"
title="http://www.gov.cn/ldhd/wjb/index.htm"><img
align="middle" border="0" height="65" hspace="0"
src="../../images/463e615713320a7514ab01.jpg" width="410"/></a>

我使用
开头<td class="p1">
 
结尾

采集不到，我想是否会是“p1”要用“*”代替嘛？

jxsrcj 发表于 2008-10-31 21:07:53

还有代码的位置摆放有规则嘛，尤其是结尾代码以及第二行代码的位置，好像有时位置非常有影响

chenfy 发表于 2008-10-31 23:32:16

原则是开始代码必须是在内容开始以上要唯一的代码，结束代码必须在开始到内容结束的唯一代码。

jxsrcj 发表于 2008-11-1 15:10:53

谢谢，我试了一试，成功了，但又碰到新问题，再多页采集时，其连续的页码无规律排列，无法连续采集，怎么办，请高手指教！！

页: [1]

火车采集器软件交流官方论坛's Archiver

内容采集的原则是什么