This action will force synchronization from OpenDocCN/ml-mastery-zh, which will overwrite any changes that you have made since you forked the repository, and can not be recovered!!!
Synchronous operation will process in the background and will refresh the page when finishing processing. Please be patient.
原文: https://machinelearningmastery.com/dont-use-random-guessing-as-your-baseline-classifier/
我最近通过电子邮件收到了以下问题:
嗨,杰森,快速提问。一类失衡:90 例竖起大拇指向下 10 例。在这种情况下,我们如何计算随机猜测的准确率?
我们可以使用一些基本概率回答这个问题(我打开了 excel 并输入了一些数字)。
不要使用随机猜测作为您的基线分类器 照片由 cbgrfx123 ,保留一些权利。
假设 0 级和 1 级的分割是 90%-10%。我们也说你会用相同的比例随机猜测。
随机猜测两分类问题的理论精度是:
= P(class is 0) * P(you guess 0) + P(class is 1) * P(you guess 1)
我们可以在我们的示例 90%-10%分割中测试这个:
= (0.9 * 0.9) + (0.1 * 0.1)
= 0.82
= 0.82 * 100 or 82%
要检查数学,您可以插入 50%-50%的数据分割,它符合您的直觉:
= (0.5 * 0.5) + (0.5 * 0.5)
= 0.5
= 0.5 * 100 or 50%
如果我们查看 Google,我们会在 Cross Validated 上找到类似的问题“不平衡分类问题的机会级准确度是多少? “答案几乎相同。再次,一个很好的确认。
有趣的是,所有这一切都有一个重要的要点。
如果您正在寻找用作基线准确度的分类器,请不要使用随机猜测。
有一个名为 Zero Rule 的分类器(或简称为 0R 或 ZeroR)。这是您可以在分类问题上使用的最简单的规则,它只是预测数据集中的多数类(例如模式)。
在上面的例子中,0 级和 1 级的 90%-10%,它将为每个预测预测 0 级,并达到 90%的准确率。这比使用随机猜测的理论最大值好 8%。
使用零规则方法作为基线。
此外,在这种不平衡的分类问题中,您应该使用除精度之外的度量,例如 Kappa 或 ROC 曲线下的面积。
有关分类问题的替代表现度量的更多信息,请参阅帖子:
有关处理不平衡分类问题的更多信息,请参阅帖子:
你对这篇文章有任何疑问吗?在评论中提问。
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。