火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 3204|回复: 3

内容采集的原则是什么

[复制链接]
发表于 2008-10-31 20:47:28 | 显示全部楼层 |阅读模式
我想请问下站长关于内容采集的中心原则是什么?
我采集新浪的文章内容采集规则通过几次测试就搞定了,但今天采集“中华人民共和国政府网”的一篇新闻时,明明已经把新闻内容的开头代码与结尾代码找到了,但是内容测试采集就是不显示。我在此想问下站长关于内容采集或其他采集关键在哪里,开头有的代码,结尾是否一定要有,还有那些参数是需要用“*”代替的等等??
关于“中华人民共和国政府网”的一篇新闻采集时,我已经把代码缩减显示,都可以显示,但在软件中不能显示。
其实火车头采集就是把我们平常的复制黏贴用电脑程序代替而已,应该简单的吧?

附代码

table width="95%" border="0" cellspacing="0" cellpadding="0" align="center">
<tr>
<td class="p1"><font id="Zoom">
<p>&#160;&#160;&#160;&#160;新华社阿斯塔纳10月31日电(魏良磊 罗辉)国务院总
理温家宝31日在阿斯塔纳同哈萨克斯坦总理马西莫夫举行会谈。</p>

<p>&#160;&#160;&#160;&#160;会谈结束后,两国总理出席了海关、卫生、农业、银行、
能源、科技等领域合作文件的签字仪式。双方还发表了两国政府联合公报(全文另发),
并共同会见了记者。</p>
<p align="center"><a href="../../wjb/index.htm" target="_blank"
title="http://www.gov.cn/ldhd/wjb/index.htm"><font color="#820201"><img
align="middle" border="0" height="65" hspace="0"
src="../../images/463e615713320a7514ab01.jpg" width="410"/></font></a></p>


我使用
开头<td class="p1"><font id="Zoom">
      <p>
结尾</p>

采集不到,我想是否会是“p1”要用“*”代替嘛?
 楼主| 发表于 2008-10-31 21:07:53 | 显示全部楼层
还有代码的位置摆放有规则嘛,尤其是结尾代码以及第二行代码的位置,好像有时位置非常有影响
发表于 2008-10-31 23:32:16 | 显示全部楼层
原则是开始代码必须是在内容开始以上要唯一的代码,结束代码必须在开始到内容结束的唯一代码。
 楼主| 发表于 2008-11-1 15:10:53 | 显示全部楼层
谢谢,我试了一试,成功了,但又碰到新问题,再多页采集时,其连续的页码无规律排列,无法连续采集,怎么办,请高手指教!!
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2025-7-17 06:33

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表