R教程中的Logistic回归
R教程中的Logistic回归
发现所有关于逻辑回归:它与线性回归有什么不同,如何用glm()函数和其他函数来拟合和评估这些模型。
逻辑回归是机器学习从统计领域借鉴的又一技术。这是一种用一个或多个解释变量建模二项结果的强大统计方法。它通过使用逻辑函数估计概率来测量分类因变量和一个或多个自变量之间的关系,逻辑函数是累积逻辑分布。
这个R教程将指导您完成逻辑回归的简单执行:
-
您将首先探讨逻辑回归背后的理论:您将进一步了解线性回归和逻辑回归模型的差异。你还会发现多项式和有序逻辑回归。
-
接下来,您将解决R中的逻辑回归:您不仅会探索数据集,还会使用 R中强大的
glm()
函数拟合逻辑回归模型,评估结果并解决过拟合问题。
提示:如果您有兴趣将线性回归技能提升到新的水平,请考虑DataCamp的多元回归和逻辑回归课程!
回归分析:简介
正如名称所表明的那样,逻辑回归是一种回归分析技术。回归分析是一组统计过程,可以用来估计变量之间的关系。更具体地说,您使用这套技术来模拟和分析因变量与一个或多个独立变量之间的关系。回归分析可帮助您了解当自变量之一被调整并且其他变量保持固定时,因变量的典型值如何变化。
正如你已经读过的,有各种回归技术。您可以通过查看三个方面来区分它们:自变量的数量,因变量的类型和回归线的形状。
线性回归
线性回归是最广为人知的建模技术之一。简而言之,它使您可以使用线性关系来预测给定值为$ X $的直线的$ Y $的(平均)数值。这条线被称为“回归线”。ÿX
因此,线性回归模型是$ y = ax + b $。该模型假定响应变量$ y $是定量的。但是,在许多情况下,响应变量是定性的,换句话说,是分类的。例如,性别是定性的,具有男性或女性的价值。ÿ= a x + bÿ
预测观测的定性响应可以称为对观测进行分类,因为它涉及将观测分配给类别或类别。另一方面,通常用于分类的方法首先预测定性变量的每个类别的概率,作为进行分类的基础。
线性回归不能预测概率。例如,如果您使用线性回归来模拟二元响应变量,则所得到的模型可能不会将预测的Y值限制在0和1之内。这里是逻辑回归发挥作用的地方,其中您得到的概率分数反映了事件发生。
Logistic回归
逻辑回归是分类技术的一个实例,您可以使用它来预测定性响应。更具体地说,逻辑回归模型是$ gender $属于特定类别的概率。GÈ Ñ dË [R
这意味着,如果您尝试进行性别分类,那么响应$ gender $属于两个类别之一,或者,您将使用逻辑回归模型来估计$ gender $属于特定类别的概率。GÈ Ñ dË [Rmale
female
GÈ Ñ dË [R
例如,给定$ longhair $的$ gender $的概率可写为:GÈ Ñ dË [R升Ò Ñ 克h a i r
Pr (gÈ Ñ de r = fË 中号一升ë | 升Ò Ñ 克h a i r )
$ Pr(gender = female | longhair)$(缩写为$ p(longhair)$)的值将介于0和1之间。然后,对于任何给定的$ long hair $值,可以预测$ gender $。Pr (gÈ Ñ de r = fË 中号一升ë | 升Ò Ñ 克h a i r )p (l o n gh a i r )升Ò Ñ 克h a i rGÈ Ñ dË [R。
给定$ X $作为解释变量,$ Y $作为响应变量,你应该如何建模$ p(X)= Pr(Y = 1 | X)$和$ X $?之间的关系。线性回归模型将这些概率表示为:Xÿ关键字: