采集时如何提取指定的字符信息
1、采集TITLE时,提取包含有省市信息(位置不固定)的字符,比如北京、天津、上海、河北等,并保存为字段。
2、有一种情况需要进行处理,即TITLE中的省市信息是以简称出现(京、津、沪、冀),需要进行对等替换成北京、天津、上海、河北这样的字符;
3、另一种情况,即TITLE中同时匹配了多个省市信息,则不保存。
4、如果TITLE没有匹配上任何省市信息,则不保存。
请问用什么方式实现,能否提供具体的规则代码,十分感谢! 你这种得弄插件才能实际的了。没有现成的代码的。 303718 发表于 2014-9-25 16:18 static/image/common/back.gif
你这种得弄插件才能实际的了。没有现成的代码的。
现在用自带的词库分词以及同义词功能,也可以实现自定义提取;但问题是,如果同时有2-3个字段需要提取多个不同类型的词,最好是能够用不同的词库,但系统目前似乎没有这个功能,比较繁琐一些,需要做提取后的排除添加。
希望系统能考虑调取不同的自定义词库。
页:
[1]