# mlstore **Repository Path**: antcoding/mlstore ## Basic Information - **Project Name**: mlstore - **Description**: 机器学习14种算法,"RandomForest","SVM","BayesA","BayesB","BayesC","BayesL","BRR","RKHS","LASSO","RidgeReg","ElasticNet","PLS","BayesG","GBLUP" - **Primary Language**: R - **License**: MulanPSL-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 9 - **Forks**: 0 - **Created**: 2021-05-17 - **Last Updated**: 2025-04-29 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # mlstore #### 介绍 机器学习13种算法, "RandomForest","SVM","BayesA","BayesB","BayesC","BayesL","BRR","RKHS","LASSO","RidgeReg", "ElasticNet","PLS","BayesG","GBLUP" ###### RandomForest: 随机森林是利用多个决策树对样本进行训练、分类并预测的一种算法,主要应用于回归和分类场景。在对数据进行分类的同时,还可以给出各个变量的重要性评分,评估各个变量在分类中所起的作用 ###### SVM: 支持向量机(Support Vector Machine, SVM)是一类按监督学习方式对数据进行二元分类的广义线性分类器(generalized linear classifier),其决策边界是对学习样本求解的最大边距超平面(maximum-margin hyperplane)。 ###### Bayes系列算法: 贝叶斯分类算法是统计学的一种分类方法,它是一类利用概率统计知识进行分类的算法。在许多场合,朴素贝叶斯分类算法可以与决策树和神经网络分类算法相媲美,该算法能运用到大型数据库中,而且方法简单、分类准确率高、速度快。 "BayesA","BayesB","BayesC","BayesL","BayesG" ###### RKHS: 支持向量机通过某非线性变换 φ( x) ,将输入空间映射到高维特征空间。特征空间的维数可能非常高。如果支持向量机的求解只用到内积运算,而在低维输入空间又存在某个函数 K(x, x′) ,它恰好等于在高维空间中这个内积,即K( x, x′) =<φ( x) ⋅φ( x′) > 。那么支持向量机就不用计算复杂的非线性变换,而由这个函数 K(x, x′) 直接得到非线性变换的内积,使大大简化了计算。这样的函数 K(x, x′) 称为核函数。 ###### LASSO: LASSO是由1996年Robert Tibshirani首次提出,全称Least absolute shrinkage and selection operator。该方法是一种压缩估计。它通过构造一个惩罚函数得到一个较为精炼的模型,使得它压缩一些回归系数,即强制系数绝对值之和小于某个固定值;同时设定一些回归系数为零。因此保留了子集收缩的优点,是一种处理具有复共线性数据的有偏估计。 ###### RidgeReg: 岭回归(英文名:ridge regression, Tikhonov regularization)是一种专用于共线性数据分析的有偏估计回归方法,实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法,对病态数据的拟合要强于最小二乘法。 ###### ElasticNet: ElasticNet 回归,即岭回归和Lasso技术的混合。弹性网络是一种使用 L1, L2 范数作为先验正则项训练的线性回归模型。 这种组合允许学习到一个只有少量参数是非零稀疏的模型,就像 Lasso 一样,但是它仍然保持一些像 Ridge 的正则性质。我们可利用 l1_ratio 参数控制 L1 和 L2 的凸组合。 ###### PLS: 偏最小二乘回归(英语:Partial least squares regression, PLS回归)是一种统计学方法,与主成分回归有关系,但不是寻找响应变量和自变量之间最大方差的超平面,而是通过投影分别将预测变量和观测变量投影到一个新空间,来寻找一个线性回归模型。因为数据*X*和*Y*都会投影到新空间,PLS系列的方法都被称为双线性因子模型(bilinear fator models) ###### GBLUP: 基因组最佳线性无偏预测(gBLUP)是一种利用基因组关系进行预测的方法估计一个人的基因优点。为此目的,我们使用了基因组关系矩阵,从DNA标记信息估计。矩阵定义个体间的协方差在基因组水平上观察到的相似性,而不是基于系谱的预期相似性,因此可以做出更准确的优点预测。采用gBLUP方法进行了预测在家畜育种中,也可能在疾病风险预测方面有一定的应用,而且在防治中也有一定的应用价值 方差成分和基因组遗传力的估计。