火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 3641|回复: 5

怎么采集不带http的,火车头识别不了【求助】

[复制链接]
发表于 2010-8-9 21:35:34 | 显示全部楼层 |阅读模式
怎么采集不带http的,火车头识别不了。
我今天准备采集一些文章,但发现他的文章页代码是这样的:
------------------------------------------------------
<!--begin-->
                          <TBODY>
                           
                            <TR>
                              <TD vAlign=bottom width="6%"
                                background=images//bg1.gif height=27> <DIV align=center><IMG height=12
                                src="images//tou6.gif"
                                width=9></DIV></TD>
                              <TD vAlign=bottom width="70%"
                                background=images//bg1.gif><A



                                 
                                                                                        href="view/201005/20100526/101731.htm"
                                                                                

                                target=_blank>早餐加水果助孩子吃出健康 </A></TD>
--------------------------------------------------------------------------------------------------
内容页面内文章的网址都类似于view/201005/20100526/101731.htm,前面的HTTP、域名都省略了,<A与href离的比较远。
造成火车头不能识别,如何是好?
发表于 2010-8-10 09:32:00 | 显示全部楼层
采集的过程是一样的吧?
 楼主| 发表于 2010-8-16 09:40:12 | 显示全部楼层
不能采集的啊 怎么办啊
发表于 2010-8-16 23:19:08 | 显示全部楼层
怎么采集不带http的,火车头识别不了。
我今天准备采集一些文章,但发现他的文章页代码是这样的:
------ ...
andyice 发表于 2010-8-9 21:35


可以尝试用 手动填写链接地址规则 去实现
发表于 2010-8-26 15:48:20 | 显示全部楼层
正则表达式不行吗
发表于 2016-2-8 22:48:26 | 显示全部楼层
历史帖子回顾中。
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2025-4-21 07:10

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表