# cooperation **Repository Path**: bigdataimplicit/cooperation ## Basic Information - **Project Name**: cooperation - **Description**: No description available - **Primary Language**: Unknown - **License**: MulanPSL-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 3 - **Forks**: 2 - **Created**: 2020-11-08 - **Last Updated**: 2023-08-21 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # cooperation #### 介绍 { cooperation是一个基于用户日志行为，业务数据为基础的数仓系统，在此基础上通过数仓给用户画像，通过用户画像设计相应的推荐系统的综合项目。此项目是学习涛哥大数据综合项目的学习项目。 } #### 软件架构本项目划分为五个模块，分别是： Commons：基础工具库 Dataware：数据仓库 Userprofile：用户画像 Recommend：推荐系统 co_web： Web展示 ![软件架构](https://images.gitee.com/uploads/images/2020/1111/143933_6e1c8898_8258367.png "屏幕截图.png") #### 使用技术项目中所涉及到的技术：采集： flume ：分布式日志数据汇聚 sqoop ：离线批量抽取数据库 cannal ：实时数据库数据逐条监听、抽取 nginx插件：前端存储： hdfs mysql redis hbase/elastic search ：用户画像标签数据的存储查询服务 kafka ：实时计算的缓冲运算： hive / mapreduce spark core/ sql flink / spark streaming OLAP引擎 Presto 数仓元数据管理（血缘管理）： Atlas job调度系统： Azkaban 算法（用户画像/推荐系统）： spark代码/sql代码实现的通用统计计算；图计算： SparkGraphx；机器学习算法： KNN k近邻 KMEANS k均值 Naive Bayes朴素贝叶斯 Logistic Regression 逻辑回归随机森林协同过滤算法各类相似度算法：欧几里得距离、余弦相似度、皮尔逊相关系数 NLP算法： TF-IDF 关键词提取文本向量化算法文本相似度算法文本分类算法关联规则分析：FP-GROWTH算法/APRIORI算法