# 小说主题聚类

**Repository Path**: CPCbiss/novel-theme-clustering

## Basic Information

- **Project Name**: 小说主题聚类
- **Description**: 实现基于预训练语言模型和大语言模型的小说内容聚类和主题词生成
- **Primary Language**: Unknown
- **License**: Apache-2.0
- **Default Branch**: main
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 2
- **Forks**: 0
- **Created**: 2025-06-26
- **Last Updated**: 2025-06-27

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README


# 文本聚类分析项目

## 简介
这是一个基于TF-IDF特征提取和KMeans聚类算法的文本聚类分析工具。该项目可以对指定文件夹中的文本文件进行预处理、向量化，并根据内容相似性将文本分成不同的类别。

## 功能特性
- 文本加载与预处理
- 使用TF-IDF进行文本向量化
- 采用KMeans算法进行聚类分析
- 提取每个聚类的关键特征词
- 按聚类结果整理文件结构

## 使用方法
1. 准备文本文件集合
2. 确保已安装必要的Python库（如scikit-learn, nltk等）
3. 运行`topic_cluster.py`脚本
4. 查看聚类结果及各聚类的关键词

## 文件说明
- `topic_cluster.py`: 主程序文件，包含完整的文本处理和聚类流程

注意：项目需要进一步配置以指定具体的文本文件路径和所需聚类数量。