火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 2904|回复: 9

标题前面大量空白,应该如何采集哦?

[复制链接]
发表于 2008-12-19 08:20:41 | 显示全部楼层 |阅读模式
<title>  
          这个标题第一行是空白,第二行又有一些,第三行是结尾
          </title>


想上面这种标题如何采集哦?
发表于 2008-12-19 08:44:00 | 显示全部楼层
(*)

 楼主| 发表于 2008-12-19 11:25:14 | 显示全部楼层
我试了试(*)好象不行哦,cpu占用100%,然后就不动了。
发表于 2008-12-19 13:08:42 | 显示全部楼层
没碰到过  是不是你标题看错了 或者文章本来就没有标题
发表于 2008-12-19 13:30:00 | 显示全部楼层
不要采集那里的标题
下面肯定还有个地方显示标题的
 楼主| 发表于 2008-12-19 16:46:09 | 显示全部楼层
多谢大家指点,我去试试
发表于 2008-12-20 12:07:29 | 显示全部楼层
采集 <title> 的时候,一般:

1. 过滤回车
2.过滤tab
3.将两个双字节空格替换为1个双字节空格
4.将两个单字节空格替换为1个单字节空格 (如果直接过滤空格的话,英文单词就变成一团糟了,所以用替换)
发表于 2008-12-20 17:10:50 | 显示全部楼层
按楼上所做就可以了
发表于 2008-12-20 17:54:49 | 显示全部楼层
如果页面中没有其它标题可以采集的话,可以使用火车的接口函数来处理。
发表于 2008-12-21 17:38:32 | 显示全部楼层
采集的时候用正则
<title>\s* (?<content>[^<]*)\s*</title>

评分

1

查看全部评分

您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

企业微信|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2026-4-23 20:11

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表