火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
12
返回列表 发新帖
楼主: Liner

自由编辑采集资料的格式,比原始网页的表现还美

[复制链接]
 楼主| 发表于 2007-1-4 20:41:24 | 显示全部楼层
原帖由 cjuser 于 2006-12-29 09:56 发表
排除掉<a (*)</a>这个连中间的关键词都排除掉啦,这样不好
例如<a href=/news/>新闻</a>这样就都排除了,还是用正则替换后剩下 “新闻” 这样比较好。


说得不错,需要灵活处理。

原帖由 abbba 于 2007-1-3 09:56 发表
如果想在多少字节处加入分页符号吗?当然加入的地方必须是</p>符号,这样才不会搞坏格式,应该怎么办呢?


不太清楚你的问题。
只要想分页的地方可以被表示出来,就可以用正则处理的。
按"字节"划分的话,会有编码码长的问题
发表于 2007-1-4 22:51:25 | 显示全部楼层
这个是个常见问题啊!
我是用帝国的,帝国编辑器有个功能就是自动插入分页符,但是它插入的方式是每隔10000字节插入一个分页符,但是注意的是,这样插入就有可能插入到代码当中,就会形成乱码!

我咨询过帝国这个问题,但是未能解决!

也是就是如果我想插入分页符,但是这个分页符不能插入到代码当中,

比如说不能插入到<br>当中,也就是<br[分页]>

这样肯定就会形成乱码了!当然最好的是插入到</p>后面,那就是正好是一页!

原帖由 Liner 于 2007-1-4 20:41 发表


说得不错,需要灵活处理。



不太清楚你的问题。
只要想分页的地方可以被表示出来,就可以用正则处理的。
按"字节"划分的话,会有编码码长的问题
 楼主| 发表于 2007-1-5 15:17:13 | 显示全部楼层
没用过帝国,
>>每隔10000字节插入一个分页符
凭直觉,这样的设计可能是针对有效文字内容的吧
不可以手动分页么
发表于 2007-1-5 17:20:42 | 显示全部楼层
原帖由 Liner 于 2007-1-5 15:17 发表
没用过帝国,
>>每隔10000字节插入一个分页符
凭直觉,这样的设计可能是针对有效文字内容的吧
不可以手动分页么



帝国是按字节算的,不分代码与文字,所以出现乱码的机率很高,手动分页太麻烦了!关键原来是采集的,而采集目标没有分页啊!
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2025-7-21 14:20

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表