首页 > 解决方案 > 删除所有非字母数字字符,但允许使用多字词

问题描述

对于 MapReduce 工作,我正在尝试删除所有非字母数字字符,如果它不是首字母缩写词,则停止标记并将其小写,但我想允许像“改变生活”这样的多词术语。这是我到目前为止所做的,我应该如何改变它?

 String line = value.toString();
        
         StringTokenizer itr = new StringTokenizer(line);
         
         while (itr.hasMoreTokens())
         { 
            String token = stem(caseFold(itr.nextToken())); 
            token=token.replaceAll("^[^a-zA-Z0-9]*|[^a-zA-Z0-9]*$", "");


             ....
         }

标签: javamapreduce

解决方案


您可以使用公开可用的字典 API,例如 dictionaryapi.com


推荐阅读