# 数据分析python **Repository Path**: zou-jingjing/data-analysis-python ## Basic Information - **Project Name**: 数据分析python - **Description**: 一些用python语言编写的数据分析程序 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 3 - **Forks**: 1 - **Created**: 2021-09-01 - **Last Updated**: 2022-08-08 ## Categories & Tags **Categories**: Uncategorized **Tags**: Python ## README # 数据分析python ### 介绍 一些用python语言编写的数据分析程序 ### 基于关联规则的推荐算法 - 利用apriori算法思想实现动漫推荐。 - 数据集来源于Kaggle平台的动漫推荐数据集,包含了来自12294部动画中73516个用户的用户偏好数据。每个用户都可以添加动画到他们的完成列表,并给它一个评分。 - 代码:[AprioriRecommend.py](https://gitee.com/zou-jingjing/data-analysis-python/blob/master/%E5%9F%BA%E4%BA%8E%E5%85%B3%E8%81%94%E8%A7%84%E5%88%99%E7%9A%84%E6%8E%A8%E8%8D%90%E7%AE%97%E6%B3%95/AprioriRecommend.py) - 最后输出:①无法为其推荐动漫的用户ID;②能够为其推荐动漫的用户ID以及所推荐的动漫列表(动漫名称,推荐概率)。 数据集下载:https://pan.baidu.com/s/1OqmVQ8YXTmUZjfsGr2AD7w?pwd=g42f 动漫数据库:https://www.kaggle.com/CooperUnion/anime-recommendations-database ### 融合用户兴趣偏好的协同过滤推荐算法 - 概述:通过引入社区划分的思想,构建了一种融合用户兴趣偏好的协同过滤推荐模型。首先,基于用户兴趣偏好使用K-means聚类算法进行社区划分,并找到待推荐的用户所属的社区,然后根据用户评分和用户兴趣偏好共同构建用户相似性,在社区中找到和用户最相似的用户集合,最后根据相似用户集合的用户评分预测待推荐用户的评分并进行推荐。 - 实验:自主编写相关python程序,在MovieLens数据集上进行仿真实验,实验结果表明该模型具有良好的推荐效果,且该模型在社区内部进行推荐,有效解决了数据稀疏性问题。 - 代码:[Cluster_CF.py](https://gitee.com/zou-jingjing/data-analysis-python/blob/master/%E8%9E%8D%E5%90%88%E7%94%A8%E6%88%B7%E5%85%B4%E8%B6%A3%E5%81%8F%E5%A5%BD%E7%9A%84%E5%8D%8F%E5%90%8C%E8%BF%87%E6%BB%A4%E6%8E%A8%E8%8D%90%E7%AE%97%E6%B3%95/Cluster_CF.py) 数据集下载:https://pan.baidu.com/s/1Ad1wFW9vX9G5OWNLftmZ0A?pwd=einj ### 社会化标注系统中基于关联规则的Tag资源聚类研究——代码复现 论文《社会化标注系统中基于关联规则的Tag资源聚类研究》中采用豆瓣网的标签为研究数据来源,运用关联规则挖掘标签间的相互关系,并结合典型的划分聚类算法k-means进行Tag资源自动聚类,从而实现对Tag资源重新组织,为用户提供更好地标签导航和浏览机制,提高信息检索效率。 基于该文章提出的标签聚类模型,以悟空问答平台中的相关标签数据为数据源,采用python语言进行了代码复现。 - 利用八爪鱼采集器爬取悟空问答平台各个话题下的问答数据,去重后总共收集16063条数据; - 每一条问答数据都附带有标签,没有标签的问答数据将其所属的话题作为标签; - 基于悟空问答平台标签可以用户自定义,为避免标签太过杂乱,将所有问答数据的标签进行统计,筛选出高频的标签词194个(依据二八定律选取); - 将高频标签词通过处理最后得到问答-标签的0-1式“词篇矩阵”,即“词篇矩阵.csv”; - 编写程序[AssociationCluster.py](https://gitee.com/zou-jingjing/data-analysis-python/blob/master/%E7%A4%BE%E4%BC%9A%E5%8C%96%E6%A0%87%E6%B3%A8%E7%B3%BB%E7%BB%9F%E4%B8%AD%E5%9F%BA%E4%BA%8E%E5%85%B3%E8%81%94%E8%A7%84%E5%88%99%E7%9A%84Tag%E8%B5%84%E6%BA%90%E8%81%9A%E7%B1%BB%E7%A0%94%E7%A9%B6_%E4%BB%A3%E7%A0%81%E5%A4%8D%E7%8E%B0/AssociationCluster.py),读入“词篇矩阵.csv”数据,经过数次迭代,最后194个高频标签词聚类为58个标签词。 原始悟空问答数据集下载:https://pan.baidu.com/s/1n29eEiqTJNdbC5QUVW33lg?pwd=v1rr