# project-text-classify **Repository Path**: ai100/project-text-classify ## Basic Information - **Project Name**: project-text-classify - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2018-07-09 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 人工智能工程师直通车 项目 1: 文本分类 ## 1、任务简介: 在金融行业,对企业的估值是进行决策的重要影响因素。而对一个价值未知的企业进 行估值,相对估值法是经常用到的,即在市场上找到与标的企业相似的、市值相对确定的 企业,来为标的企业的估值提供参考。 但是市场上的企业数量极大,依靠人力难以快速准确地找到相似企业。对企业进行分 类是找到相似企业完成对标的基础。本项目旨在利用我们所学的机器学习技术,根据企业 的文字描述对其进行分类(企业分成 10 类,1~10),以便进一步确定企业间的相似度, 完成对标关系的确定。 ## 2、数据描述: (1)训练数据集:training.csv 每个训练样本包含两个字段,分别为企业类别标签(1~10)和企业的文字描述(文 本)。训练数据示例: | | | | ---- | ------------------------------------------------------------ | | 2 | 公司的主营业务为向中小微企业、个体工商户、农户等客户提供贷款服务,自设 立以来主营业务未发生过变化。 | | 1 | 公司立足于商业地产服务,致力于为商业地产开发、销售、运营全产业链提供一 整套增值服务,业务覆盖商业定位及策划、商业设计、销售代理、招商代理电子 商务、以及商业地产运管服务;同时开展应用互联网电商模式,采取 O2O 线上导 流线下服务方式进行住宅类业务的创新营销服务。公司的业务板块包括商业地产 策划顾问、专业招商及运营管理、代理销售、麦吉铺 O2O 电子商务。 | (2) 测试数据集:testing.csv 测试数据也包含两个字段,分别为样本索引和对应的企业描述。 | | | | ---- | ------------------------------------------------------------ | | 1 | 经工商登记机关核准,本公司的经营范围包括:许可经营项目:面向“三农” 发放贷款、提供融资性担保... | | 2 | 公司主营业务是从事保险标的出险后的查勘、检验和估损理算等保险中介服 务。公司及子公司中平评估致... | (3) 提交测试结果:result.csv 提交测试结果也包含两个字段,分别为测试样本索引及对应的企业分类预测结果。 | | | | ---- | ------------------------------------------------------------ | | 1 | 2 | | 1 | 2 | ## 3、评价标准: 项目需要根据训练数据训练一个企业分类模型,然后对测试集中的企业进行分类。本 项目采用分类正确率来进行评分,令$y_i$为第 i 个样本真正的标签,$\hat y_i$为模型对第i个的预测 值,N 为样本数据,则模型的正确率为 $$ accuracy=\frac{1}{N} \sum^N_{i=0}1(y_i=\hat y_i) $$ ## 4、提示: 注意:由于企业描述是文本信息,需要对文本信息进行特征提取。 文本分词可采用 Jieba 分词或 jieba_fast: **Jieba 分词:** https://github.com/fxsjy/jieba http://blog.csdn.net/FontThrone/article/details/72782499 **jieba_fast:** https://pypi.python.org/pypi/jieba-fast 主页:https://github.com/deepcs233/jieba_fast