怎么采集不带http的，火车头识别不了【求助】

andyice 发表于 2010-8-9 21:35:34

怎么采集不带http的，火车头识别不了。
我今天准备采集一些文章，但发现他的文章页代码是这样的：
------------------------------------------------------

                     <TBODY>

                        <TR>
                           <TD vAlign=bottom width="6%"
                           background=images//bg1.gif height=27> <DIV align=center><IMG height=12
                           src="images//tou6.gif"
                           width=9></DIV></TD>
                           <TD vAlign=bottom width="70%"
                           background=images//bg1.gif><A


                                                                                    href="view/201005/20100526/101731.htm"


                           target=_blank>早餐加水果助孩子吃出健康 </A></TD>
--------------------------------------------------------------------------------------------------
内容页面内文章的网址都类似于view/201005/20100526/101731.htm，前面的HTTP、域名都省略了，<A与href离的比较远。
造成火车头不能识别，如何是好？

sushy 发表于 2010-8-10 09:32:00

采集的过程是一样的吧？

andyice 发表于 2010-8-16 09:40:12

不能采集的啊怎么办啊

JinGui 发表于 2010-8-16 23:19:08

怎么采集不带http的，火车头识别不了。
我今天准备采集一些文章，但发现他的文章页代码是这样的：
------ ...
andyice 发表于 2010-8-9 21:35 http://bbs.locoy.com/images/common/back.gif

可以尝试用手动填写链接地址规则去实现

Eryxan 发表于 2010-8-26 15:48:20

正则表达式不行吗

lbjyuer 发表于 2016-2-8 22:48:26

历史帖子回顾中。

页: [1]

火车采集器软件交流官方论坛's Archiver

怎么采集不带http的，火车头识别不了【求助】