# hadoop-test **Repository Path**: jlzl/hadoop-test ## Basic Information - **Project Name**: hadoop-test - **Description**: 大数据学习 - **Primary Language**: Java - **License**: WTFPL - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 2 - **Forks**: 1 - **Created**: 2020-08-19 - **Last Updated**: 2023-02-26 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # hadoop-test ## 介绍 大数据学习 ## 软件架构 软件架构说明 ## 项目说明 #### 一、物品推荐 1. 基于协同过滤算法,采用hadoop 的MapReduce进行数据迭代计算实现,最终获得对用户的物品推荐列表。 2. 原始测试输入数据在目录 /input/itemCF/test/input下的test_data.txt文件。 3. 项目/input/itemCF/test下的其他输出目录是每步MapReduce计算输出的结果,上一个数据结果也作为下一个MapReduce的输出数据集。 4. itemCF目录下的item_user.txt是数据量比较大的原始数据,能较接近的模拟正常的应用数据。 5. 关于此算法实现详解具体请参见个人博客文章:[基于协同过滤算法的物品推荐实现](https://blog.csdn.net/xdkb159/article/details/108078516) #### 二、TF-IDF算法 1. TF-IDF用来分析所有文件中各个分词占文件的权重 2. 词频TF:给定词语在给定文件中出现的次数,一般会做归一化,即除以文件的总词数 3. 逆向文件频率IDF:普遍重要性度量,由文件总数除以包含该词的文件的数目,再对商取对数 4. 分词占文件的权重TF-IDF=TF * IDF 5. 项目/input/tf-idf/hot/input下是改算法的输入数据集,其他三个output分别对应三步MapReduce的输出结果集(当然前两步的结果集也会作为后一步的输入数据集) 6. 关于此算法实现详解具体请参见个人博客文章:[TF-IDF算法实现](https://blog.csdn.net/xdkb159/article/details/108102313) #### 三、PageRank算法 1. PageRank即网页排名,是谷歌用来计算网页重要程度的算法 2. 网页权重pr值计算公式:pr = (1-d)/n + d*sum(tr) 3. 其中d是阻尼系数,谷歌定义为0.85 4. n表示网页总数,tr是网页收到的投票权值。 5. 项目/input/pageranke目录下的page_data.txt是测试数据,其他output是每次迭代的输出 6. 关于此算法实现详解具体请参见个人博客文章:[网页排名PageRank算法](https://blog.csdn.net/xdkb159/article/details/108119681) #### 四、好友推荐 1. 先计算用户的间接好友关系 2. 排除直接好友关系的用户 3. 最终间接关系数最多的及时用户的最佳推荐好友 4. 项目/input/firend/input目录下的friend_list.txt是测试数据 5. 关于此算法实现详解具体请参见个人博客文章:[网页排名PageRank算法](https://blog.csdn.net/xdkb159/article/details/108143622) #### 码云特技 1. 使用 Readme\_XXX.md 来支持不同的语言,例如 Readme\_en.md, Readme\_zh.md 2. 码云官方博客 [blog.gitee.com](https://blog.gitee.com) 3. 你可以 [https://gitee.com/explore](https://gitee.com/explore) 这个地址来了解码云上的优秀开源项目 4. [GVP](https://gitee.com/gvp) 全称是码云最有价值开源项目,是码云综合评定出的优秀开源项目 5. 码云官方提供的使用手册 [https://gitee.com/help](https://gitee.com/help) 6. 码云封面人物是一档用来展示码云会员风采的栏目 [https://gitee.com/gitee-stars/](https://gitee.com/gitee-stars/)