# HotNewsAnalysis

**Repository Path**: jacen789/HotNewsAnalysis

## Basic Information

- **Project Name**: HotNewsAnalysis
- **Description**: 利用文本挖掘技术进行新闻热点关注问题分析
- **Primary Language**: Python
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 5
- **Forks**: 3
- **Created**: 2019-12-16
- **Last Updated**: 2024-10-28

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# HotNewsAnalysis
利用文本挖掘技术进行新闻热点关注问题分析

------
## 热点分析

本文主要通过文本挖掘技术进行新闻热点问题分析，把从网上抓取到的财经新闻，通过对新闻内容的聚类，得到新闻热点；再对热点进行分析，通过对某一热点相关词汇的聚类，得到热点问题所涉及的人物、行业或组织等。主要涵盖的内容如图1-1所示：

    ![系统总任务](./images/总任务.png)

    图 1-1 新闻热点关注问题分析总任务

由图1-1所见，本文主要研究的内容为：

 1. 利用新闻API、爬虫算法、多线程并行技术，抓取三大专业财经新闻网站（新浪财经、搜狐财经、新华网财经）的大量财经新闻报道；

 2. 对新闻进行去重、时间段过滤，然后对新闻内容文本进行jieba分词并词性标注，过滤出名词、动词、简称等词性，分词前使用自定义的用户词词典增加分词的准确性，分词后使用停用词词典、消歧词典、保留单字词典过滤掉对话题无关并且影响聚类准确性的词，建立每篇新闻的词库，利用TF-IDF特征提取之后对新闻进行DBSCAN聚类，并对每个类的大小进行排序；

 3. 针对聚类后的每一类新闻，为了得到该处热点的话题信息，还需要提取它们的标题，利用TextRank算法，对标题的重要程度进行排序，用重要性最高的标题来描述该处热点的话题；

 4. 对所有的新闻内容进行jieba分词，并训练出word2vec词嵌入模型，然后对聚类后的每一类新闻，提取它们的内容分词后的结果，运用word2vec模型得到每个词的词向量，再利用k-Means聚类算法进行相近词聚类。

系统界面可视化如图1-2所示：

    ![系统总任务](./images/系统界面.png)

    图 1-2 新闻热点关注问题分析系统总界面

功能：见[paper](./paper/利用文本挖掘技术进行新闻热点关注问题分析.pdf)