andyice 发表于 2010-8-9 21:35:34

怎么采集不带http的,火车头识别不了【求助】

怎么采集不带http的,火车头识别不了。
我今天准备采集一些文章,但发现他的文章页代码是这样的:
------------------------------------------------------
<!--begin-->
                        <TBODY>
                           
                            <TR>
                              <TD vAlign=bottom width="6%"
                              background=images//bg1.gif height=27> <DIV align=center><IMG height=12
                              src="images//tou6.gif"
                              width=9></DIV></TD>
                              <TD vAlign=bottom width="70%"
                              background=images//bg1.gif><A



                                 
                                                                                        href="view/201005/20100526/101731.htm"
                                                                              

                              target=_blank>早餐加水果助孩子吃出健康 </A></TD>
--------------------------------------------------------------------------------------------------
内容页面内文章的网址都类似于view/201005/20100526/101731.htm,前面的HTTP、域名都省略了,<A与href离的比较远。
造成火车头不能识别,如何是好?

sushy 发表于 2010-8-10 09:32:00

采集的过程是一样的吧?

andyice 发表于 2010-8-16 09:40:12

不能采集的啊 怎么办啊

JinGui 发表于 2010-8-16 23:19:08

怎么采集不带http的,火车头识别不了。
我今天准备采集一些文章,但发现他的文章页代码是这样的:
------ ...
andyice 发表于 2010-8-9 21:35 http://bbs.locoy.com/images/common/back.gif

可以尝试用 手动填写链接地址规则 去实现

Eryxan 发表于 2010-8-26 15:48:20

正则表达式不行吗

lbjyuer 发表于 2016-2-8 22:48:26

历史帖子回顾中。
页: [1]
查看完整版本: 怎么采集不带http的,火车头识别不了【求助】