# spark-scala-demo **Repository Path**: zhangjuntao/scala-demo ## Basic Information - **Project Name**: spark-scala-demo - **Description**: spark-scala-demo scala的学习 - **Primary Language**: Scala - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 3 - **Forks**: 1 - **Created**: 2017-04-24 - **Last Updated**: 2023-05-12 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README #scala、spark 练习 1、推荐系统的设计,通过kafka + Spark Stream得到各类型访问资源计数器(Hbase etcd 加锁删除老的,增加新的。删除一年前的) 2、spark每晚三点定时,解析昨天日志,过滤出昨天热门的各类前500个资源。(广播方式:为0随机,数据库前一百个) 3、每一个月用日志训练出当月各类前5W个资源的同现矩阵。(皮尔逊求相近算法) 4、对昨天的日志分析,得到用户的浏览资源记录,得到用户的喜爱得分矩阵。 5、通过喜爱得分矩阵 * 同现矩阵,再用户的为key分组。 6、将分组后的同现(相近)的物品,按照喜爱得分倒叙排列,并更新用户的喜爱得分表Hbase。(表结构:recommend:userID)