# 对环球网英文版内容进行词频统计 **Repository Path**: Allen0815/wordcount ## Basic Information - **Project Name**: 对环球网英文版内容进行词频统计 - **Description**: hadoop+mapreduce - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2020-02-21 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 对环球网英文版内容进行词频统计 通过BeautifulSoup爬取环球网英文版10000个新闻页面的文字内容,得到一个29.4MB的txt文件。 然后启动hadoop,并将txt文件上传到HDFS分布式文件系统中。最后运行mapreduce程序 wordcount进行统计,通过分布式的批量处理,比传统方式更快得处理得到每个单词出现的次数。 #### 软件架构 通过BeautifulSoup爬取网页 通过hadoop+mapreduce统计词频 #### 软件安装 pycharm通过BeautifulSoup爬取文字内容 在虚拟机上搭hadoop环境,搭好之后通过wordcount进行统计