# dictlist **Repository Path**: daycen/dictlist ## Basic Information - **Project Name**: dictlist - **Description**: 计算TF-IDF值 - **Primary Language**: Python - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2021-02-17 - **Last Updated**: 2021-08-31 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # dictlist 在NLP领域,TF-IDF值被用于衡量文本之间的关系。 这个程序是对TF-IDF的一次拓展应用尝试,我试图通过比较DNS域名之间的关系,分析DNS流量中各DNS域名在整个语料库中的重要程度 这个脚本主要干了以下这些事: 1、从Excel文件获取DNS流量数据; 2、使用正则表达式对数据进行清洗和规范化; 3、生成DNS实例和对应语料库; 4、计算各语料库的TF-idf值并降序输出;