caijihome 发表于 2013-1-20 22:00:12

无法采集的网址

本帖最后由 caijihome 于 2013-1-22 14:49 编辑

http://www.hynews.net\/2013\/0120\/1145689.shtml
网址带符号

caijihome 发表于 2013-1-20 22:00:44

http://www.hynews.net\/2013\/0120\/1145689.shtml

caziyo 发表于 2013-1-23 15:22:09

这种带反斜杠的地址本来就是错误的地址

caijihome 发表于 2013-1-24 18:41:06

caziyo 发表于 2013-1-23 15:22 static/image/common/back.gif
这种带反斜杠的地址本来就是错误的地址

问题是很多类似这样的列表采集过来就是这样的,相必管理也明白我的意思,列表源代码采集过来就这样子,难道非要配合PHP插件才可以采集?
http:\/\/www.baidu.com\/more\/1.list.html

caijihome 发表于 2013-1-24 18:48:53

要不火车头功能增强下吧,规则第一步增加对采集网址 初步处理的功能

处理的功能可以参考以下几点
功能1:替换功能
功能2:组合 调用常见的 标签,时间戳/自增ID/年月日/其他地方标签/组合TXT里面信息

caijihome 发表于 2013-1-24 18:49:51

我建议的这些功能,在一些CMS后台都非常常见。建议火车头功能增强

caijihome 发表于 2013-1-24 18:54:25

本帖最后由 caijihome 于 2013-1-24 18:55 编辑


这种情况很多吧,建议考虑下

caijihome 发表于 2013-1-25 10:51:05

本帖最后由 caijihome 于 2013-3-6 13:58 编辑

{:soso_e117:} {:soso_e117:} {:soso_e117:}

caijihome 发表于 2013-1-25 10:57:57

本帖最后由 caijihome 于 2013-3-6 13:59 编辑

{:soso_e117:} {:soso_e117:} {:soso_e117:}

caijihome 发表于 2014-1-2 15:59:28

这个问题希望考虑下。很多情况,暂时只能用接口处理了!!
建议火车头有处理传送网址的功能!!
网址直接是错误的,
火车头既然没有 采集模板多定义 多通道功能,起码有网址重定义功能。2个能考虑一种方案?

另外模拟浏览器的全部标记功能不管用。
http://d.pcs.baidu.com/thumbnail/68f3b1cb66dc0a9b76855f003eee4924?fid=254166306-250528-2062222030&time=1388649546&rt=pr&sign=FDTAER-DCb740ccc5511e5e8fedcff06b081203-jqYR7Fp6j4xFGig1k7HtfCzJ%2Fjs%3D&expires=8h&prisign=RK9dhfZlTqV5TuwkO5ihMd5RMl20gNxXUiEpHysoGOa4dVgjLeLWVzraTroqGzzhz8x/WRGp6iAgqRi840HJLkDpdFAycVEktpg7g1C3ba8AGPZwtrU+tH1ZR/yafpNDw94KjyAU4ACqXph0mLqSe9tm27ZAatG/gaesQFZa5K1HjxpOag86YC3bTx5+aHK85bt4UKY/BEQc82U6wJMYNZD173Vl0ATBtq4lEPexmY/KCfKch6BTrQ==&r=805611840&size=c10000_u10000&quality=100


论坛不能发图片了,什么情况。
页: [1] 2
查看完整版本: 无法采集的网址