# repeatstr-based-on-suffixarray **Repository Path**: beforevercc/repeatstr-based-on-suffixarray ## Basic Information - **Project Name**: repeatstr-based-on-suffixarray - **Description**: 利用后缀数组求重复子串 - **Primary Language**: Java - **License**: Apache-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 1 - **Created**: 2018-03-12 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README ### **repeatstr-based-on-suffixarray** 利用后缀数组实现的重复串统计,同时计算了重复串的邻接判别信息熵和独立性,并用于中文新词发现,新词发现逻辑为: * 1、计算后缀数组; * 2、利用后缀数组获取文本中的重复串,重复串就是出现次数大于1的; * 3、计算重复串的互信息,凝结度衡量指标; * 4、计算重复串的邻接度,自由度衡量指标; * 5、设定合适的阈值,提取可能是词的串。