# WordCount

**Repository Path**: guxuankun/word-count

## Basic Information

- **Project Name**: WordCount
- **Description**: No description available
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2023-11-04
- **Last Updated**: 2023-11-04

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

这段代码是一个经典的Hadoop MapReduce示例，用于执行单词计数任务。它用于统计文本文件中每个单词出现的次数。下面是如何使用这段代码的步骤：

1. 准备Hadoop环境：
   - 请确保你已经安装了Hadoop并设置好Hadoop环境变量。
   - 将你的文本文件准备好，并确保它们位于Hadoop文件系统中的适当目录中。你需要指定输入和输出目录。

2. 编译代码：
   - 将这段代码保存为一个Java文件（例如WordCount.java）。
   - 使用Hadoop提供的`hadoop`命令编译Java代码，生成一个可执行的JAR文件。
   
   ```bash
   hadoop com.sun.tools.javac.Main WordCount.java
   jar cf WordCount.jar WordCount*.class
   ```

3. 运行MapReduce任务：
   - 使用`hadoop`命令来提交MapReduce作业。在命令行中运行以下命令：

   ```bash
   hadoop jar WordCount.jar org.example.WordCount input-directory output-directory
   ```

   其中：
   - `WordCount.jar`是你编译后生成的JAR文件。
   - `org.example.WordCount`是Java类的全限定名。
   - `input-directory`是输入文本文件所在的目录，可以是一个文件或一个包含多个文件的目录。
   - `output-directory`是输出结果的目录，它将包含单词计数结果。

4. 查看结果：
   - 作业完成后，你可以使用Hadoop命令或查看输出目录来查看单词计数的结果。例如：

   ```bash
   hadoop fs -cat output-directory/part-r-00000
   ```

   这将显示每个单词及其出现的次数。

注意：在实际使用中，你需要根据你的Hadoop集群配置和文件路径进行适当的更改。此示例代码假定你已经正确配置了Hadoop集群，并且输入文件在Hadoop文件系统中可用。