is-hakka-gz 发表于 2009-5-14 10:25:03

采集过程中遇到%符号的问题

【内容】:
     物料帐说明资料 <br />
<table width="300">
    <tbody>
      <tr>
            <td width="20" height="30"><a target="_blank" href="http://www.sapzg.com/zlk/uploads/0912/%E7%89%A9%E6%96%99%E5%B8%9033%E8%AF%B4%E6%98%8E%E8%B5%84%E6%96%99.rar"><img alt="" align="center" border="0" src="/picAure/2009051410175121.gif" /></a></td>
            <td><a target="_blank" href="http://www.sapzg.com/zlk/uploads/0912/%E7%89%A9%E6%96%99%E5%B8%9033%E8%AF%B4%E6%98%8E%E8%B5%84%E6%96%99.rar"><u>http://www.sapzg.com/zlk/uploads/0912/物料帐33说明资料.rar</u></a></td>
      </tr>
    </tbody>
</table>
   
【时间】: 2009-05-14 10:17:51


----------------------------
上边链接中存在%的字符串是必须的,而又没法替换,在发布到DEDE过程中,发现文章到%就断开了,而且网站框架也乱了,只好人工排版。

出现这个问题,可能不是火车头采集的问题,个人认为可能触动了DEDE的某些标签。
因此,能否在采集过程中替换%的字符串呢?
/%E7%89%A9%E6%96%99%E5%B8%9033%E8%AF%B4%E6%98%8E%E8%B5%84%E6%96%99——这段字符串真烦人

懷念過去↑文 发表于 2009-5-14 13:26:37

那个是完整的下载地址 如果替换了还能识别下载吗?
使用火车头采集器下载附件发布地址才会有变化

is-hakka-gz 发表于 2009-5-14 14:27:16

2# 懷念過去↑文



ali78ls 没想到版主大人会亲自回复,谢谢,选择了探明文件并下载选项后,解决了这个问题。而且文件的路径也出来了,不会再有%字符串了。。。

另外,我在另外一个帖子发的关于DEDE文章含有&随机字符串,造成采集文章发布到目标站点后文章不全,有没有更好的过滤方法?目前我是发布以后浏览,发现有问题的就重新到源文章里头找含有&随机字符串,手动过滤,效果就慢了一些。


---------------
【内容】:
     物料帐说明资料 <br />
<table width="300">
    <tbody>
      <tr>
            <td width="20" height="30"><a target="_blank" href="/oP2er/200905141419038.rar"><img alt="" align="center" border="0" src="/picPure/200905141419037.gif" /></a></td>
            <td><a target="_blank" href="/oP2er/200905141419038.rar"><u>http://www.sapzg.com/zlk/uploads/0912/物料帐33说明资料.rar</u></a></td>
      </tr>
    </tbody>
</table>
   
【时间】: 2009-05-14 14:19:03
-----------------------

sosome 发表于 2009-5-14 15:45:12

选中 urlencode

is-hakka-gz 发表于 2009-5-14 16:28:28

选中 urlencode
sosome 发表于 2009-5-14 15:45 http://bbs.locoy.com/images/common/back.gif


没有看见这个东东,在哪里选择的???我也想试试
页: [1]
查看完整版本: 采集过程中遇到%符号的问题