|
发表于 2010-2-23 17:56:30
|
显示全部楼层
自定义正则语法规则:
此项可以很精确的分析到要采集的数据,填写后,下面三项建议清空.
举例比如网页中的html代码如下
<tr><td><img src="图片地址"><a href="内容页URL地址" title="注释信息">信息标题</a></td></tr>
那么左边输入
<tr><td><img src="{picurl=NO"}"><a href="{url=NO"}" title="{NO"}">{title=NO<}</a></td></tr>
其中{url=NO"}的意义是地址等于不包含有"双引号的所有字符串
其中{title=NO<}的意义是标题等于不包含有<号的所有字符串
其中{NO"}的意义代表不包含有"号的所有字符串,为何他前面没有等号?那是因为不考虑取他的值,因为每个标题的title都不一样.所以这里要给他定义一个正则语法.其他固定的格式就不必处理了
注:NO后面可以写上任何字符,可多个,但不能为中文,
例如:{url=NO' "=<>}代表除' "=<>他们之外的所有字符串
这上面的怎么看都理解不懂到底是怎么个意思,你可以帮我们说说吗!!
我测试采集成功了的,但是真采集时提示没有选折标题采集会失败,标题怎么设置呢!!! |
|