# 对环球网英文版内容进行词频统计

**Repository Path**: Allen0815/wordcount

## Basic Information

- **Project Name**: 对环球网英文版内容进行词频统计
- **Description**: hadoop+mapreduce
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2020-02-21
- **Last Updated**: 2020-12-19

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# 对环球网英文版内容进行词频统计

通过BeautifulSoup爬取环球网英文版10000个新闻页面的文字内容，得到一个29.4MB的txt文件。

然后启动hadoop，并将txt文件上传到HDFS分布式文件系统中。最后运行mapreduce程序 wordcount进行统计，通过分布式的批量处理，比传统方式更快得处理得到每个单词出现的次数。

#### 软件架构
通过BeautifulSoup爬取网页

通过hadoop+mapreduce统计词频

#### 软件安装
pycharm通过BeautifulSoup爬取文字内容
在虚拟机上搭hadoop环境，搭好之后通过wordcount进行统计