1 Star 0 Fork 2

天龙 / ml-mastery-zh

forked from OpenDocCN / ml-mastery-zh 
Create your Gitee Account
Explore and code with more than 12 million developers,Free private repositories !:)
Sign up
Clone or Download
dont-use-random-guessing-as-your-baseline-classifier.md 2.92 KB
Copy Edit Raw Blame History
布客飞龙 authored 2022-01-15 12:15 . 2022-01-15 12:15:59

不要使用随机猜测作为基线分类器

原文: https://machinelearningmastery.com/dont-use-random-guessing-as-your-baseline-classifier/

我最近通过电子邮件收到了以下问题:

嗨,杰森,快速提问。一类失衡:90 例竖起大拇指向下 10 例。在这种情况下,我们如何计算随机猜测的准确率?

我们可以使用一些基本概率回答这个问题(我打开了 excel 并输入了一些数字)。

Don't Use Random Guessing As Your Baseline Classifier

不要使用随机猜测作为您的基线分类器 照片由 cbgrfx123 ,保留一些权利。

假设 0 级和 1 级的分割是 90%-10%。我们也说你会用相同的比例随机猜测。

随机猜测两分类问题的理论精度是:

= P(class is 0) * P(you guess 0) + P(class is 1) * P(you guess 1)

我们可以在我们的示例 90%-10%分割中测试这个:

= (0.9 * 0.9) + (0.1 * 0.1)
= 0.82
= 0.82 * 100 or 82%

要检查数学,您可以插入 50%-50%的数据分割,它符合您的直觉:

= (0.5 * 0.5) + (0.5 * 0.5)
= 0.5
= 0.5 * 100 or 50%

如果我们查看 Google,我们会在 Cross Validated 上找到类似的问题“不平衡分类问题的机会级准确度是多少? “答案几乎相同。再次,一个很好的确认。

有趣的是,所有这一切都有一个重要的要点。

不要使用随机猜测作为基线

如果您正在寻找用作基线准确度的分类器,请不要使用随机猜测。

有一个名为 Zero Rule 的分类器(或简称为 0R 或 ZeroR)。这是您可以在分类问题上使用的最简单的规则,它只是预测数据集中的多数类(例如模式)。

在上面的例子中,0 级和 1 级的 90%-10%,它将为每个预测预测 0 级,并达到 90%的准确率。这比使用随机猜测的理论最大值好 8%。

使用零规则方法作为基线。

此外,在这种不平衡的分类问题中,您应该使用除精度之外的度量,例如 Kappa 或 ROC 曲线下的面积。

有关分类问题的替代表现度量的更多信息,请参阅帖子:

有关处理不平衡分类问题的更多信息,请参阅帖子:

你对这篇文章有任何疑问吗?在评论中提问。

马建仓 AI 助手
尝试更多
代码解读
代码找茬
代码优化
1
https://gitee.com/zjl_666/ml-mastery-zh.git
git@gitee.com:zjl_666/ml-mastery-zh.git
zjl_666
ml-mastery-zh
ml-mastery-zh
master

Search

344bd9b3 5694891 D2dac590 5694891