相关系数计算公式

OK,这就来一篇关于相关系数计算公式的小红书风格文章,保证让各位哥哥姐姐们看得明明白白!😉

先来个总结性的回答:相关系数,就是用来衡量两个变量之间线性关系强弱和方向的统计量!它的取值范围在-1到+1之间。+1表示完全正相关📈,-1表示完全负相关📉,0表示没有线性关系🤷‍♀️。计算公式根据数据类型不同,有好几种,但最常用的是皮尔逊相关系数


公式直接上:

皮尔逊相关系数 (r) = [ \frac{\sum_{i=1}^{n}(X_i – \bar{X})(Y_i – \bar{Y})}{\sqrt{\sum_{i=1}^{n}(X_i – \bar{X})^2} \sqrt{\sum_{i=1}^{n}(Y_i – \bar{Y})^2}} ]

是不是看起来有点🤯?别慌!咱们一步步拆解!


🤔 公式解读,保证你看懂!

  • Xi, Yi: 这是你手头上的两组数据,比如身高和体重,股票A和股票B的价格等等。每一个i代表一个数据点。
  • X̄, Ȳ: 这是两组数据的平均值,计算方法就是把所有数据加起来,然后除以数据的个数n
  • Σ: 这个希腊字母(读作sigma)表示“求和”,就是把后面那一坨东西,从i=1一直加到i=n
  • (Xi – X̄)(Yi – Ȳ): 这表示每个数据点的值减去它所在那组数据的平均值,得到的是每个数据点相对于平均值的“偏差”。
  • 分子 Σ(Xi – X̄)(Yi – Ȳ): 把每个数据点对应的X偏差和Y偏差相乘,然后再把所有乘积加起来。这一步很关键,它反映了X和Y变化的“同步性”。如果X变大时Y也倾向于变大,那么这个值就是正的;如果X变大时Y倾向于变小,那么这个值就是负的。
  • 分母 [ \sqrt{\sum_{i=1}^{n}(X_i – \bar{X})^2} \sqrt{\sum_{i=1}^{n}(Y_i – \bar{Y})^2}} ]: 这是对分子进行“标准化”的处理。目的是消除X和Y本身数值大小的影响,让相关系数的取值范围固定在-1到+1之间。你可以把它理解为X和Y各自“波动幅度”的乘积。

💪 实战演练,举个栗子!

假设我们有5个同学的身高(X)和体重(Y)数据(单位:厘米,公斤):

同学身高(X)体重(Y)
116050
216555
317060
417565
518070
  1. 计算平均值:

    • X̄ = (160+165+170+175+180)/5 = 170
    • Ȳ = (50+55+60+65+70)/5 = 60
  2. 计算偏差:

    • (160-170)=-10, (50-60)=-10
    • (165-170)=-5, (55-60)=-5
    • (170-170)=0, (60-60)=0
    • (175-170)=5, (65-60)=5
    • (180-170)=10, (70-60)=10
  3. 计算分子:

    • (-10)(-10) + (-5)(-5) + 00 + 55 + 1010 = 100 + 25 + 0 + 25 + 100 = 250
  4. 计算分母:

    • √[(-10)²+(-5)²+0²+5²+10²] = √(100+25+0+25+100) = √250
    • √[(-10)²+(-5)²+0²+5²+10²] = √(100+25+0+25+100) = √250
    • √250 √250 = 250
  5. 计算r:

    • r = 250 / 250 = 1

在这个例子里,我们得到了一个完全正相关的结果(r=1)!🎉 这意味着身高越高,体重就越重(当然,这只是一个简化示例,现实生活中身高和体重的关系会更复杂)。


💡其他类型的相关系数

除了皮尔逊相关系数,还有其他一些计算相关性的方法,适用于不同类型的数据:

  • 斯皮尔曼等级相关系数(Spearman’s rank correlation coefficient):适用于等级数据非线性关系的数据。它先将数据转换成等级(排名),然后再计算等级之间的皮尔逊相关系数。
  • 肯德尔等级相关系数 (Kendall’s tau):也是用于等级数据,但计算方法与斯皮尔曼相关系数不同。 它衡量的是数据排序的一致性。

💖 应用场景,生活中处处可见!

  • 金融领域: 分析股票、债券等投资标的之间的相关性,构建投资组合,分散风险。
  • 市场营销: 研究广告投放与销售额之间的关系,优化营销策略。
  • 医学研究: 探索疾病与生活习惯、遗传因素等之间的相关性。
  • 教育领域: 分析学生的学习时间与考试成绩之间的关系。
  • 社交媒体:看看你发的内容和点赞👍数量有没有关系!

注意事项,避免踩坑!

  • 相关性不等于因果关系! 两个变量之间存在相关性,并不意味着一个变量是导致另一个变量变化的原因。 很有可能存在第三个变量(混杂变量)同时影响了这两个变量。
  • 相关系数只衡量线性关系! 如果两个变量之间存在非线性关系(比如U型曲线),皮尔逊相关系数可能会很低,但这并不意味着它们之间没有关系。
  • 异常值会影响结果!少数极端的数据点(异常值)可能会显著影响相关系数的计算结果,需要谨慎处理。
  • 样本量要足够大! 样本量太小,计算出的相关系数可能不可靠。

总而言之,掌握相关系数计算公式可以帮助大家更好地理解数据之间的关系,在学习、工作和生活中做出更明智的决策! 希望这篇文章对你有帮助!😊 如果还有疑问,尽管提出来!

相关系数计算公式

本文来自互联网收集整理,如有侵犯您的权利,请联系(点我联系),我们将第一时间处理,如若转载,请注明出处:https://www.7luohu.com/archives/143764

(0)
语文老师语文老师

相关推荐