# CompKey Algorithm Experiment

**Repository Path**: ABSWTF/competitive-keyword-algorithm-experiment

## Basic Information

- **Project Name**: CompKey Algorithm Experiment
- **Description**: 中南大学电子商务实验一二，项目并不是最终完整的系统，只是对竞争性关键词算法的初步实现。
- **Primary Language**: Python
- **License**: MIT
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2024-10-27
- **Last Updated**: 2024-12-04

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# CompKey Algorithm Experiment

### 介绍
中南大学电子商务实验一二，项目并不是最终完整的系统，只是对竞争性关键词算法的初步实现。

#### 软件架构
软件架构说明

文件结构：

    CompKey Algorithm Experiment
    │  
    ├─experiment1
    │ ├─experiment1.py  # 实验一
    │ ├─experiment1_advanced.py  # 实验一改进思考
    │ └─experiment1_compare.py  # 实验一对比思考
    │
    ├─experiment2 
    │ ├─step1.py  # 实验一内容优化
    │ ├─step2.py  # 实验二数据处理
    │ ├─step3.py  # 实验二数据分析
    │ └─step4.py  # 实验二调查分析
    │
    ├─stop_words.txt  # 包含用于过滤停用词的列表, 程序读取这个文件中的停用词，并使用它们来清洗数据
    └─requirement # 依赖文件
        
#### 安装教程

1.  用到的数据集是 user_tag_query.10W.TRAIN，是搜狗某年的搜索记录，您可以自行准备数据集。
2.  本地运行环境是利用conda搭建的虚拟环境，python版本是3.9。
3.  终端执行 pip install -r requirement 下载依赖，可能有部分遗漏，可自行独立导入相关依赖。
4.  每个文件都有独立的运行函数，可选择运行。

#### 内容说明

1. experiment1 文件夹，包含实验1的文件内容。
2. experiment1.py 文件， 关键词输出在控制台， 默认选取20个出现频率最高的搜索词， 种子关键词输出保存在文件中。
3. experiment1_advanced.py 文件， 简单线性搜索算法， 正则化， 减少I/O操作， 多线程处理， 添加程序运行平均时长
4. experiment_compare.py 文件， pkuseg分词库处理数据的运行文件， 用于和jieba分词库处理数据进行横向对比。
5. experiment2 文件夹，包含实验2的文件内容。
6. step1.py 文件，实验1的部分优化内容，预处理数据。
7. step2.py 文件，实验2的内容，对中介关键词、竞争关键词进行统计处理。
8. step3.py 文件，实验2的内容，计算相关的权重、关键度，进行统计分析。
9. step4.py 文件，实验2的内容，设计调查表进行感知竞争性的评分，表格内容还可以优化，数据暂时缺失。