# CompKey Algorithm Experiment **Repository Path**: ABSWTF/competitive-keyword-algorithm-experiment ## Basic Information - **Project Name**: CompKey Algorithm Experiment - **Description**: 中南大学电子商务实验一二,项目并不是最终完整的系统,只是对竞争性关键词算法的初步实现。 - **Primary Language**: Python - **License**: MIT - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2024-10-27 - **Last Updated**: 2024-12-04 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # CompKey Algorithm Experiment ### 介绍 中南大学电子商务实验一二,项目并不是最终完整的系统,只是对竞争性关键词算法的初步实现。 #### 软件架构 软件架构说明 文件结构: CompKey Algorithm Experiment │ ├─experiment1 │ ├─experiment1.py # 实验一 │ ├─experiment1_advanced.py # 实验一改进思考 │ └─experiment1_compare.py # 实验一对比思考 │ ├─experiment2 │ ├─step1.py # 实验一内容优化 │ ├─step2.py # 实验二数据处理 │ ├─step3.py # 实验二数据分析 │ └─step4.py # 实验二调查分析 │ ├─stop_words.txt # 包含用于过滤停用词的列表, 程序读取这个文件中的停用词,并使用它们来清洗数据 └─requirement # 依赖文件 #### 安装教程 1. 用到的数据集是 user_tag_query.10W.TRAIN,是搜狗某年的搜索记录,您可以自行准备数据集。 2. 本地运行环境是利用conda搭建的虚拟环境,python版本是3.9。 3. 终端执行 pip install -r requirement 下载依赖,可能有部分遗漏,可自行独立导入相关依赖。 4. 每个文件都有独立的运行函数,可选择运行。 #### 内容说明 1. experiment1 文件夹,包含实验1的文件内容。 2. experiment1.py 文件, 关键词输出在控制台, 默认选取20个出现频率最高的搜索词, 种子关键词输出保存在文件中。 3. experiment1_advanced.py 文件, 简单线性搜索算法, 正则化, 减少I/O操作, 多线程处理, 添加程序运行平均时长 4. experiment_compare.py 文件, pkuseg分词库处理数据的运行文件, 用于和jieba分词库处理数据进行横向对比。 5. experiment2 文件夹,包含实验2的文件内容。 6. step1.py 文件,实验1的部分优化内容,预处理数据。 7. step2.py 文件,实验2的内容,对中介关键词、竞争关键词进行统计处理。 8. step3.py 文件,实验2的内容,计算相关的权重、关键度,进行统计分析。 9. step4.py 文件,实验2的内容,设计调查表进行感知竞争性的评分,表格内容还可以优化,数据暂时缺失。