火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 7134|回复: 11

无法采集的网址

[复制链接]
发表于 2013-1-20 22:00:12 | 显示全部楼层 |阅读模式
本帖最后由 caijihome 于 2013-1-22 14:49 编辑

http://www.hynews.net\/2013\/0120\/1145689.shtml
网址带符号
 楼主| 发表于 2013-1-20 22:00:44 | 显示全部楼层
发表于 2013-1-23 15:22:09 | 显示全部楼层
这种带反斜杠的地址本来就是错误的地址
 楼主| 发表于 2013-1-24 18:41:06 | 显示全部楼层
caziyo 发表于 2013-1-23 15:22
这种带反斜杠的地址本来就是错误的地址

问题是很多类似这样的列表采集过来就是这样的,相必管理也明白我的意思,列表源代码采集过来就这样子,难道非要配合PHP插件才可以采集?
http:\/\/www.baidu.com\/more\/1.list.html
 楼主| 发表于 2013-1-24 18:48:53 | 显示全部楼层
要不火车头功能增强下吧,规则第一步增加对采集网址 初步处理的功能

处理的功能可以参考以下几点
功能1:替换功能
功能2:组合 调用常见的 标签,时间戳/自增ID/年月日/其他地方标签/组合TXT里面信息
 楼主| 发表于 2013-1-24 18:49:51 | 显示全部楼层
我建议的这些功能,在一些CMS后台都非常常见。建议火车头功能增强
 楼主| 发表于 2013-1-24 18:54:25 | 显示全部楼层
本帖最后由 caijihome 于 2013-1-24 18:55 编辑


这种情况很多吧,建议考虑下

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
 楼主| 发表于 2013-1-25 10:51:05 | 显示全部楼层
本帖最后由 caijihome 于 2013-3-6 13:58 编辑

{:soso_e117:} {:soso_e117:} {:soso_e117:}
 楼主| 发表于 2013-1-25 10:57:57 | 显示全部楼层
本帖最后由 caijihome 于 2013-3-6 13:59 编辑

{:soso_e117:} {:soso_e117:} {:soso_e117:}
 楼主| 发表于 2014-1-2 15:59:28 | 显示全部楼层
这个问题希望考虑下。很多情况,暂时只能用接口处理了!!
建议火车头有处理传送网址的功能!!
网址直接是错误的,
火车头既然没有 采集模板多定义 多通道功能,起码有网址重定义功能。2个能考虑一种方案?

另外模拟浏览器的全部标记功能不管用。



论坛不能发图片了,什么情况。
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-23 03:24

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表