怎么采集不带http的,火车头识别不了【求助】
怎么采集不带http的,火车头识别不了。我今天准备采集一些文章,但发现他的文章页代码是这样的:
------------------------------------------------------
<!--begin-->
<TBODY>
<TR>
<TD vAlign=bottom width="6%"
background=images//bg1.gif height=27> <DIV align=center><IMG height=12
src="images//tou6.gif"
width=9></DIV></TD>
<TD vAlign=bottom width="70%"
background=images//bg1.gif><A
href="view/201005/20100526/101731.htm"
target=_blank>早餐加水果助孩子吃出健康 </A></TD>
--------------------------------------------------------------------------------------------------
内容页面内文章的网址都类似于view/201005/20100526/101731.htm,前面的HTTP、域名都省略了,<A与href离的比较远。
造成火车头不能识别,如何是好? 采集的过程是一样的吧? 不能采集的啊 怎么办啊 怎么采集不带http的,火车头识别不了。
我今天准备采集一些文章,但发现他的文章页代码是这样的:
------ ...
andyice 发表于 2010-8-9 21:35 http://bbs.locoy.com/images/common/back.gif
可以尝试用 手动填写链接地址规则 去实现 正则表达式不行吗 历史帖子回顾中。
页:
[1]