火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 2492|回复: 2

采回来的内容与设置的测试的不符

[复制链接]
发表于 2007-11-8 23:16:07 | 显示全部楼层 |阅读模式
来源站大概代码如下:
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html>
<head>
<meta http-equiv="Content-Type" c>
<title>来源站</title>
<meta name=keywords c>
<meta name="description" c>
</head>
<body>
***************
来源站的其它代码
****************
<FONT id=font_word style="FONT-SIZE: 14px; FONT-FAMILY: 宋体, Verdana, Arial, Helvetica, sans-serif"><P style="TEXT-INDENT: 2em" align=center><b>要采集的文字</b>
<P style="TEXT-INDENT: 2em" align=center><b><img src="../abc/abcd/要采集的图片.jpg" border=0 >  </b>
<P style="TEXT-INDENT: 2em"><b>要采集的文字</b></P><div id="Message" class="Message"></div></font></div>
***************
来源站的其它代码
****************
</body>
</html>

我在站点和任务中的内容标签都设置成开始字符串为sans-serif">,结束字符串为<div id="Message" class="Message">,HTML标签排除选链接<a和表格<table,但采集回来的内容包含了sans-serif">前面的代码,请问各位老大,为何这样?如何排除?
发表于 2007-11-8 23:54:28 | 显示全部楼层
给出地址或全部代码,不然不好分析
 楼主| 发表于 2007-11-9 16:09:54 | 显示全部楼层

全部代码,请各位老大帮忙分析

1、我设的内容规则:
标题开始字符串<h1>,结束字符串</h1>
内容开始字符串sans-serif">,结束字符串<div id="Message" class="Message">
2、另外,要采集的内容中嵌入的图片1.jpg采不回来,不知为什么?
<HTML>
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=gb2312">
<title>采集标题</title>
<meta name=keywords content=" 关键字">
<meta name="description" content="采集标题">
<LINK href="../skin/aaa.css" type=text/css rel=stylesheet>
</head>
<script src="../inc/bbb.js" type="text/javascript"></script>
<body>
<center><table width="750" border="0" cellpadding="0" cellspacing="0">
          <tr>
            <td width="161" height="61" rowspan="2"><img src="../images/aaa.gif" width="161" height="61" ></td>
            <td width="15" height="26"><img src="../images/bbb.gif" width="15" height="26" ></td>
            <td width="39"><a href="../cid1/1.htm"><img src="../images/ccc.gif" alt="文字1" width="39" height="26" border="0"></a></td>
            <td width="15"><img src="../images/2.gif" width="15" height="26" ></td>
            <td width="62"><a href="../cid2/1.htm"><img src="../images/ddd.gif" alt="文字2" width="62" height="26" border="0"></a></td>
            <td width="15"><img src="../images/fff.gif" width="15" height="26"></td>
            <td width="60"><a href="../cid3/1.htm"><img src="../images/eee.gif" alt="文字3" width="60" height="26" border="0"></a></td>
            <td width="15"><img src="../images/ggg.gif" width="15" height="26" ></td>
            <td width="59"><a href="../cdi4/1.htm"><img src="../images/abc.gif" alt="文字4" width="59" height="26" border="0"></a></td>
            <td width="15"><img src="../images/bac.gif" width="15" height="26" ></td>
            <td width="60"><a href="../cid5/1.htm"><img src="../images/cab.gif" alt="文字5" width="60" height="26" border="0"></a></td>
            <td width="15"><img src="../images/2.gif" width="15" height="26"></td>
            <td width="59"><a href="../cid6/1.htm"><img src="../images/cba.gif" alt="文字6" width="59" height="26" border="0"></a></td>
            <td width="15"><img src="../images/2.gif" width="15" height="26" ></td>
            <td width="60"><a href="../cid7/1.htm"><img src="../images/bcd.gif" alt="文字7" width="60" height="26" border="0"></a></td>
            <td width="8"><img src="../images/cbd.gif" width="15" height="26" ></td>
            <td width="77" background="../images/cdb.gif"><a href="../cid8/1.htm"><img src="../images/dcb.gif" alt="文字8" width="68" height="26" border="0"></a></td>
          </tr>
          <tr>
            <td height="35" background="../images/def.gif" colspan="16"><font size="2"><a href="../cid11/1.htm" title=文字1>文字1</a>|<a href="../cid12/1.htm" title=文字2>文字2</a>|<a href="../cid13/1.htm" title=文字3>文字3</a></font></td>
          </tr>
        </table></center>
<table width="750" border="0" align="center" cellpadding="0" cellspacing="0" >
  <tr>
    <td height="22"> <table width="100%"  border="0" cellspacing="0" cellpadding="0">
    <tr>
        <td width="3%" align="center"><img src="../skin/bbb.gif" border="0" width="18" height="18" alt="文字"></td>
        <td width="75%">您当前的位置:<a href="../cid3/1.htm">
          路径1</a> -&gt;</td>
        <td width="22%" align="center"><A title=将网站名设为首页  onclick="this.style.behavior='url(#default#homepage)';this.sethomepage('http://来源站网址.cn/');return false;"   href="http://来源站网址/"><img src="../skin/bbb.gif" border="0" width="60" height="22" alt="文字"></a>&nbsp;<A title=将网站名加入到收藏夹  href="javascript:window.external.AddFavorite(location.href,document.title)"><img src="../skin/ccc.gif" border="0" width="60" height="22" alt="文字"></a></td>
      </tr>    </table></td>
  </tr>
</table>
<table width="750" height="246" border="0" align="center" cellpadding="0" cellspacing="0">
  <tr valign="top">
    <td width="588" height="240" align="right" class="tableright" >
<table width="588" height="240" border="0" cellpadding="0" cellspacing="0" style="table-layout:fixed;word-break:break-all">
  <tr>
    <td align="center" height=30 ><h1>标题</h1></td>
  </tr>
  <tr>
    <td align="center" height=20>&nbsp;<a href="http://来源站地址/" title=网站名>http://来源站地址</a>&nbsp;&nbsp;时间:2007-11-09 10:44:12&nbsp;&nbsp;转载</td>
  </tr>
<script language=javascript>
var newasp_fontsize=9;
var newasp_lineheight=12;
</script>
  <tr>
    <td><p align="right"><a style="CURSOR: hand; POSITION: relative" onClick="if(newasp_fontsize&gt;8){NewaspContentLabel.style.fontSize=(--newasp_fontsize)+&quot;pt&quot;;NewaspContentLabel.style.lineHeight=(--newasp_lineheight)+&quot;pt&quot;;}" title="减小字体"><img src="../images/1.gif" border="0" width="15" height="15">减小字体</a>
                    <a style="CURSOR: hand; POSITION: relative" onClick="if(newasp_fontsize&lt;64){NewaspContentLabel.style.fontSize=(++newasp_fontsize)+&quot;pt&quot;;NewaspContentLabel.style.lineHeight=(++newasp_lineheight)+&quot;pt&quot;;}" title="增大字体"><img src="../images/2.gif" border="0" width="15" height="15">增大字体</a>
</p>
<div id="NewaspContentLabel" style="display:block;padding:0px 10px;" class="ContentFont"><div style="float:left;margin:2px;">
<script type="text/javascript"><!--
google_ad_client = "pub-1234567899876543";
google_ad_width = 280;
google_ad_height = 220;
google_ad_format = "280x220_as";
google_ad_type = "text";
google_ad_channel = "";
google_color_border = "ffffff";
google_color_bg = "ffffff";
google_color_link = "ffffff";
google_color_text = "ffffff";
google_color_url = "ffffff";
//--></script>
<script type="text/javascript"
  src="http://abbbbbbc.com/eacd/sas.js">
</script></div><FONT id=font_word style="FONT-SIZE: 14px; FONT-FAMILY: 宋体, Verdana, Arial, Helvetica, sans-serif">内容1<P align=center><img src="../lod/图片1.jpg" border=1 name=MM onload="return imgzoom(this,550)"></P>
<P>内容2</P>
<div id="Message" class="Message"></div></font></div>
<div></div></td>
  </tr>
        <tr>
        <td height="35" valign="middle"  class="titleback"><p>上一篇文章:<a href=../cid3/4.html>文章1<br>
        </a>下一篇文章:<a href=../cid3/6.html>文章2</a><br>
          </p>
          </td>
      </tr>
</table>
</td>
<td width="188"  class="tableleft">
<table width="100%"  border="0" cellspacing="0" cellpadding="0">
      <tr>
        <td valign="middle"  class="titleback">分类</td>
      </tr>
      <tr>
        <td height="20" valign="top" align="center"><span class="tdmenubar"><a href='../cid3/1.htm' class="menubar" title='分类1&#13;&#10;文章数:409'><span class="titleback">分类1</span></a></span>
        <span class="tdmenubar"><a href='../cid14/1.htm' class="menubar" title='分类2&#13;&#10;文章数:215'><span class="titleback">分类2</span></a></span></td></tr>
      <tr>
        <td valign="middle"  class="titleback">热门文章</td>
      </tr>
                <tr>
        <td valign="middle"  class="titleback"><a href=../cid17/6.html title='文章1'>文章1</a></td>
      </tr>
                <tr>
        <td valign="middle"  class="titleback">相关文章</td>
      </tr>
                <tr>
        <td valign="middle"  class="titleback"><a href="../cid20/9.html" title='文章4'>文章4</a></td>
      </tr>
                <tr>
        <td valign="middle"  class="titleback">最新文章</td>
      </tr>
                <tr>
        <td valign="middle"  class="titleback"><span class="showli1"><a href='9.html' class="showlist" title="文章7">文章7</a> 11-01</span></td>
      </tr>
    </table>
      <table width="100%"  border="0" cellspacing="0" cellpadding="0">
        <tr>
          <td height="25" class="titleback">&nbsp;</td>
        </tr>
      </table>
    </td>
  </tr>
</table>
<!-- 页面底部开始 -->
</body>
</html>
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2025-5-23 20:15

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表