在生信分析领域,我们经常会看到一种呈现“波动”状态的可视化图表——桑基图,能够直观展示数据的“流动”变化。但可能很多科研er并不了解桑基图中的各类标签、线条波动等信息具体代表着什么样的含义~
今天,我们就从以下几个方面,并结合具体案例来深入了解一下桑基图吧!
一、定义
桑基图(Sankey Diagram)是一种特殊类型的可视化图表,主要以其简洁、直观的方式展示流量、能量、资源等在不同阶段或组件之间的流动和转移关系。在生物医学领域中,可以用来研究“群、基因、蛋白的互作关系”“不同时间段、不同状态下患者数量分布”等。
二、用途
①表示物质流动:在药物代谢、疾病传播、生态系统分析等方面,桑基图可以用来表示物质或能量的流动和转化,帮助研究人员了解物质和能量在整个生物系统中的流动路径。
②定量分析:桑基图可以直观地展示不同物质或成分之间的转换量,便于比较和分析不同变量之间的关系。
③可视化复杂过程:在生物信息学领域,桑基图被广泛应用于基因表达谱、代谢通路和蛋白质互作网络的可视化,帮助研究人员更好地理解这些过程中的中间步骤和节点。
三、案例解读
①研究背景:
CpG岛是基因起始区的特殊DNA序列,影响基因表达。在癌症中,CpG岛甲基化模式变化可导致基因异常表达。研究CpG二核苷酸位点和CpG岛对理解基因调控、疾病机制和潜在治疗策略至关重要。
文章研究目的是总结当前在表观基因组研究中基于机器学习的方法以识别与癌症预后相关的DNA甲基化标志物。
②解读重点:一看线条的走向,二看粗细的变化,三看节点间的比较
四、元素解读
①第1列:预筛选CpGs,统计了33项的研究中【第1步-预筛选CpGs】所采用的分析方法,包括与预后有关的(Prognosis-associated)、比较TT/NT(Comparing TT/NT)等7种;
②第2列:功能预选,统计了33项研究中【第二步-功能筛选】所采用的分析方法,包括LASSO-Cox、随机森林(Random forest)等13种;
③第3列:与特征选择有关的主要模型训练,统计了33项研究中所采用的分析方法,包括Cox、Mutli Cox、Logistic等16种;
④第4列:验证,统计了33项研究中所采用的验证方法,包括外部验证(Externalvalidation)、样本分离(Sample-Splitting)、交叉验证(Cross-validation)等4种;
⑤代表使用“与预后有关的(Prognosis-associated)方法”来预筛选CpGs的研究有10项;
⑥连接线:表示流量的流向,用于连接不同的节点。一般通过线条越宽,流量越大;不同的线条颜色代表不同类别,灰色线条代表非机器学习方法、蓝色代表有监督特征选择、红色代表机器深度学习的方法。
五、相关疑问&解答
①桑基图不适用于哪些情况?
不适合展示连续变化的数据:桑基图主要用于展示物质或能量流动的过程,不适合表示连续变化的数据,如时间序列数据。
不适用于维度过多的数据:当数据维度过多,如涉及大量因素或复合过程时,将难以用桑基图解释。
无法直接表示数量关系:桑基图更适合展示流程和流向,对于具体的数量关系,如精确的数量或比例,可能不如其他图表直观。
②桑基图有哪些衍生类型?
单向垂直桑基图
桑基气泡图
桑基堆叠柱状图
交互式桑基图