PHPAnalysis2.0 php中文无组件分词

一、特征

1、在analysis基础上修改分词算法
2、重构文件结构，支持composer
3、优化分词步骤(粗分、切分、优化三步完全独立)
4、优化词性标注，新增更多类别的词性
5、新增基于TF-IDF的权重排序
6、支持类成员链式调用，即是 xx()->xx()->xx() 模式

二、demo

use Analysis\Analysis;
$pa = Analysis::Instance()
        ->setSource("PHPAnalysis 2.0 的出现真是让人们眼前一亮，中文分词从此也可以变成了一件很好玩的事情。")
        ->setDifferMax(false)    //最大切分
        ->setDifferFreq(true)    //二元消歧
        ->setUnitWord(true)      //单字合并
        ->setOriginSave(false)   //保留合并
        ->setDeep(true)          //深度分词
        ->setOptimize(true)      //优化分词
        ->start();               //开始分析

当前，也可以使用默认参数，上面代码就可以简化为：
$pa = Analysis::Instance()
        ->SetSource("PHPAnalysis 2.0 的出现真是让人们眼前一亮，中文分词从此也可以变成了一件很好玩的事情。")
        ->start();

三、支持方法

获取粗分分词

$pa->getSimple($isWord = false)

获取深度分词

$pa->getDeep()

获取优化后的分词

$pa->getResult($hasProperty = false)

获取排序后的分词

/*
* @param $sort	tf:词频, rank：TF-IDF评分, count:次数
* @param $num 数量, 0 or null返回全部
*/
$pa->getRanks($sort='rank', $num=0)

获取新词

$pa->getNewWords()

编译词典

$pa->makeDict($sourceFile, $dicHand='main')

反编译词典

$pa->exportDict($sourceFile='', $dicHand='main')

root / analysis

PHPAnalysis2.0 php中文无组件分词

一、特征

二、demo

三、支持方法

简介

发行版

贡献者

近期动态

root / analysis .gitee-modal { width: 500px !important; }

PHPAnalysis2.0 php中文无组件分词

一、特征

二、demo

三、支持方法

简介

发行版

贡献者

近期动态

搜索帮助

root / analysis