我们经常会在文献中看到这种类似“山峦”一样的数据图,总觉得十分高级又难懂,但其实只要拆解一下,就能快速看懂~
今天就带大家一起来学习山脊图的解读!
一、定义&用途
1)定义:
山脊图(Ridgeline Plot)也称为山峦图,是一种用于可视化数据分布的图表,特别是用于显示多个组的分布情况,有助于比较不同组或类别之间的分布,同时保持分布的整体形状。
2)用途:
(1)基因表达分析:用于展示不同条件下的基因表达水平的分布情况,有助于快速了解基因表达的变化趋势和差异。
(2)突变频率分析:在基因组学研究中,山脊图可以用来展示突变在样本或个体中的分布情况。通过比较不同样本或个体的突变频率分布,可以识别出突变的共有特征和差异点。
(3)群落生态研究:用于展示微生物群落的组成和结构,通过比较不同样本或环境中微生物的丰度分布,识别出群落的结构和变化。
(4)表观遗传学分析:用于展示不同细胞类型或条件下的表观遗传标记(如DNA甲基化、组蛋白修饰等)的分布情况。
二、案例解读
1)Phenotype列:选取的不同GWAS(全基因组关联研究)表型,包括WHRadjBMI(经BMI调整后的腰臀比)、TC(总胆固醇)、T2D(2型糖尿病)等。
2)nprot列/nprot-nth列:nprot列代表每个性状的共定位蛋白数量;nprot-nth列代表在分析中排除了含有5个或更多共定位蛋白的位点后,剩余的蛋白数量,注释为无反式热点(nth)。
3)P列/Pnth列:分别对应nprot列/nprot-nth列的性状关联显著富集的经验P值。
4)密度曲线:1000个随机取样的相同大小的蛋白质集。
5)黑线:指示每种GWVAS表型与AGES队列中相同性状显著相关的共定位蛋白的比例(线性回归,FDR<0.05.n=5457),例如,BMI表型对应的比例约为0.8。
6)横坐标:与表型相关的蛋白质比例。
7)图注:5种不同的表型类别,绿色是人体测量、红色是心血管代谢、浅黄是血球生成、土黄是眼科、紫色是精神病学和神经学
三、相关疑问&解答
1)密度图和山脊图的关联
(1)密度图:揭示分布的精髓。密度图是一个二维图,它描绘了数据在特定范围内分布的情况,主要通过堆叠垂直线来构建,形成一条平滑的曲线,代表数据的概率密度函数
(2)山脊图:揭示数据的隐藏层次。山脊图是对密度图的扩展,它不仅展示了数据的分布,还揭示了数据分组或类别之间的差异,主要通过并排放置多个密度曲线来构建,每个曲线代表一个不同的组或类别
(3)两者的区别
①维度:密度图是二维图,而山脊图是三维图。
②分组:密度图不显示分组信息,而山脊图则显示。
③比较:密度图专注于单个分布,而山脊图允许比较多个分布。
④适用性:密度图适用于连续数据,而山脊图适用于连续数据和分组数据。
2)山脊图在使用过程中有什么特点?
(1)山脊图的优点
①比较能力:山脊图非常适合比较不同分布的形状和大小,清晰地展示不同组之间的变化和趋势。
②空间效率:通过在单个图中堆叠密度曲线,山脊图有效地利用空间,显示多组数据,避免了创建多个单独的密度图。
③美观性:山脊图在视觉上吸引人,可以用不同的颜色和样式来区分不同的组,使得数据更加生动和直观。
④趋势识别:可以轻松识别多个群体数据中的共同模式和异常值。
⑤数据量:适用于展示大量数据集,而不会显得拥挤或不清晰。
(2)山脊图的缺点
①过度拥挤:如果组的数量过多,山脊图可能会显得拥挤,使得个别分布难以辨认。
②精确度:由于重叠,难以精确读取特定点的值,尤其是在分布之间的重叠区域。
③数值比较:虽然能够展示分布趋势,但不适合精确比较不同组之间的数值。
④边缘效应:在堆叠的密度图中,可能会产生误导,例如,边缘的分布可能看起来比实际更少。