# paoding-analysis **Repository Path**: zhzhenqin/paoding-analysis ## Basic Information - **Project Name**: paoding-analysis - **Description**: Paoding分词器基于Lucene4.x - **Primary Language**: Java - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 55 - **Forks**: 29 - **Created**: 2013-07-05 - **Last Updated**: 2024-09-18 ## Categories & Tags **Categories**: segment **Tags**: None ## README #Paoding分词器基于Lucene4.x 原项目见 https://code.google.com/p/paoding/ #Paoding Analysis摘要 Paoding's Knives 中文分词具有极高效率和高扩展性。引入隐喻，采用完全的面向对象设计，构思先进。高效率：在PIII 1G内存个人机器上，1秒可准确分词 100万汉字。采用基于不限制个数的词典文件对文章进行有效切分，使能够将对词汇分类定义。能够对未知的词汇进行合理解析用心的贡献，极其能鼓励人 ----------------------！分词示例如下： TokenStream ts = analyzer.tokenStream("text", new StringReader(text)); //添加工具类注意：以下这些与之前lucene2.x版本不同的地方 CharTermAttribute offAtt = (CharTermAttribute) ts.addAttribute(CharTermAttribute.class); // 循环打印出分词的结果，及分词出现的位置 while (ts.incrementToken()) { System.out.print(offAtt.toString() + "\t"); } #编译说明项目默认可以使用Maven直接编译. 如果使用Ant,可把依赖的lib放入 {pro_workspace}/target/dependency/ 下. 然后使用ant可以直接编译. 编译的结果存放在 {pro_workspace}/target/dist/{version}/ 下可使用Maven的 copy-dependencies 命令直接copy依赖到{pro_workspace}/target/dependency/，然后使用ant编译 mvn dependency：copy-dependencies #Solr4.x使用说明 Solr 4.x以上可以直接配置Lucene的Analyzer. 配置如: