今天要给大家分享的是【相关性分析散点图】,本期内容主要从以下几部分展开:
Pearson和Spearman相关性分析的定义和用途
相关性分析散点图怎么看(结合具体案例)
相关性分析相关疑问和解答
一、Pearson和Spearman相关性分析的定义和用途
1.Pearson定义&用途
Pearson相关性分析是一种用于街量两个变量之间线性关系强度和方向(正负)的一种统计分析方法,基于变量的数值本身来计算。
探索变量间的关系:帮助研究者了解两个变量之间的线性关联程。
预测和建模:为建立预测模型提供基础,通过已知交量预测来知交量。
数据筛选:在数据分析的预处理阶段,用于筛选出与研究目标高度相关的变量,排除无关或弱相关变量。
验证假设:在科学研究中,验证关于变量之间关系的假设。
比较不同组数据:比较不同组别中两个变量的相关性是否存在差异。
2.Spearman定义&用途
Spearman相关性分析是一种用于衡量两个变量之间的单调关系(单调递增or单调递减or无单调性)强度和方向(正负)的一种统计分析方法,但不限于线性关系,它基于数据的秩次,计算秩次之间的相关性。
处理不符合正态分布的数据:Spearnan相关性分析比Pearson相关性分析更稳。
分析有序数据:对于有序分类变量(如等圾、名次等),Spearman相关性分析脆有效评估其相关性。
应对异常值:对败据中的异常值不太敏感,能更准确地反映变量之间的总体关联。
探索非线性关系:可以发现变量之闸的单调但非线性的关系。
学科研究应用:在医学、心理学、社会学等领域,常常用于分析各种指标之闸的关联。
二、相关性分析散点图怎么看(结合具体案例)
1.【Pearson相关性分析】怎么看?
案例解读
本图说明平均TCR贡献与F1分数之间存在较强的正相关线性关系,即TCR贡献的变化可能会对模型的性能产生较大影响。
2.【Spearman相关性分析】怎么看?
案例解读
本图表示NanoString技术检测到的基因表达水平与IHC检测到的CD3阳性细胞百分比之间有较好的一致性。IHC的CD3阳性细胞百分比通常用于评估免疫细胞浸润情况,特别是T细胞的浸润程度。而NanoString技术可以同时检测多个基因的表达水平,提供更全面的基因表达谱信息。因此,两者的相关性提示NanoString技术在检测免疫相关基因表达方面具有一定的潜力,具有临床检测意义。
三、相关性分析相关疑问和解答
1.如何确定选用Pearson相关性分析还是Spearman相关性分析?
①连续变量、满足线性关系、正态分布,选择Pearson相关性分析最恰当;
②上述3条,有任意一条不满足,均必须使用Spearman相关性分析;
③当数据为定序数据(有序/等级)的时候,必须使用Spearman相关性分析。
2.线性关系和单调关系有何区别?
①线性关系是两个变量之间的关系,可以用一条直线表示,变化率恒定;
②单调关系是指一个变量增加时,另一个变量始终增加(或始终减少),但变化率可能不恒定,图形可能是直线或者曲线;
③所有的线性关系都是单调关系,但并非所有的单调关系都是线性的。
3.什么是正态分布?
正态分布指数据样本中大多数数据集中在均值附近,离均值越远数据出现的频率越低。
4.相关性分析中的p值代表了什么?
p<0.05--具有显著统计学意义,即可以认为变量之间存在真实的相关关系,不是偶然发生的。
p>0.05--不具有显著统计学意义,变量间的相关性很可能是由于随机因素造成的。