Liner 发表于 2007-1-4 20:41:24

原帖由 cjuser 于 2006-12-29 09:56 发表
排除掉<a (*)</a>这个连中间的关键词都排除掉啦,这样不好
例如<a href=/news/>新闻</a>这样就都排除了,还是用正则替换后剩下 “新闻” 这样比较好。

说得不错,需要灵活处理。

原帖由 abbba 于 2007-1-3 09:56 发表
如果想在多少字节处加入分页符号吗?当然加入的地方必须是</p>符号,这样才不会搞坏格式,应该怎么办呢?

不太清楚你的问题。
只要想分页的地方可以被表示出来,就可以用正则处理的。
按"字节"划分的话,会有编码码长的问题

abbba 发表于 2007-1-4 22:51:25

这个是个常见问题啊!
我是用帝国的,帝国编辑器有个功能就是自动插入分页符,但是它插入的方式是每隔10000字节插入一个分页符,但是注意的是,这样插入就有可能插入到代码当中,就会形成乱码!

我咨询过帝国这个问题,但是未能解决!

也是就是如果我想插入分页符,但是这个分页符不能插入到代码当中,

比如说不能插入到<br>当中,也就是<br[分页]>

这样肯定就会形成乱码了!当然最好的是插入到</p>后面,那就是正好是一页!

原帖由 Liner 于 2007-1-4 20:41 发表


说得不错,需要灵活处理。



不太清楚你的问题。
只要想分页的地方可以被表示出来,就可以用正则处理的。
按"字节"划分的话,会有编码码长的问题

Liner 发表于 2007-1-5 15:17:13

没用过帝国,
>>每隔10000字节插入一个分页符
凭直觉,这样的设计可能是针对有效文字内容的吧
不可以手动分页么

abbba 发表于 2007-1-5 17:20:42

原帖由 Liner 于 2007-1-5 15:17 发表
没用过帝国,
>>每隔10000字节插入一个分页符
凭直觉,这样的设计可能是针对有效文字内容的吧
不可以手动分页么


帝国是按字节算的,不分代码与文字,所以出现乱码的机率很高,手动分页太麻烦了!关键原来是采集的,而采集目标没有分页啊!
页: 1 [2]
查看完整版本: 自由编辑采集资料的格式,比原始网页的表现还美