# Company-Names-Corpus **Repository Path**: wushh1/Company-Names-Corpus ## Basic Information - **Project Name**: Company-Names-Corpus - **Description**: 公司名语料库。机构名语料库。公司简称,缩写,品牌词,企业名。可用于中文分词、机构名实体识别。 - **Primary Language**: Unknown - **License**: Apache-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 3 - **Created**: 2021-06-29 - **Last Updated**: 2021-06-29 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 公司名语料库(Company-Names-Corpus) 业余项目“萌名NameMoe(一个基于语料库技术的取名工具)”的副产品。 不定期更新。只删词,不加词。 可用于中文分词、机构名识别。 --- 公司名语料库(Company-Names-Corpus) 数据大小:480万。 语料来源:多个词典汇总。 数据清洗:已清洗,但仍存有大量badcase。 --- 机构名语料库(Organization-Names-Corpus) 数据大小:110万。 语料来源:多个词典汇总。 数据清洗:已清洗,但仍存有大量badcase。 --- 公司简称、品牌词等(Company-Shorter-Form) 数据大小:28万。 语料来源:多个词典汇总。 数据清洗:已清洗,但仍存有大量badcase。 --- 为什么是压缩包: 未压缩的文件有200多M,压缩后只有30M左右,我网速不好,就先压为敬。 --- 请勿提交涉政issue: 惹不起呀,谢谢~ 语料中还存有的,会在后续的更新中逐步删除掉。 --- 更新时间: 删除了3000余非公司名。 -2018.10.31 新增了10万公司简称、品牌词。 -2018.12.30 新增了28万公司简称、品牌词。 -2019.03.23 删除了2万余质量不高的公司名、机构名。 -2019.04.15 删除了3000余非公司名。 -2019.07.27 --- @萌名NameMoe 整理 2019.07.27