从小白的角度,一刻钟复现生信套路。各位小伙伴大家好,这里是美丽专栏。经过两期的零代码复现课,相信大家一定对肿瘤领域的单基因套路有一定的了解,最近也有小伙伴私聊美丽,希望掌握一些非肿瘤领域的生信文章,作为新一代宠粉达人,这样的需求,美丽当然是满足啦。接下来,美丽带大家康康如何在非肿瘤领域进行省心研究,话不多说,开始今天的复现之旅吧。
文章复现是生信小白成长为大神的最佳路径。在本篇文章中,美丽将会手把手教您3图4表逐个步骤的文章复现。
今天为大家带来一篇2020年3月份发表于Frontiers of endocrinology(影响因子:3.644)的单基因非肿瘤生信文章套路复现。
话不多说,我们开始吧!
题目
Bioinformatic Analysis Identifies Potential Key Genes in the Pathogenesis of Turner Syndrome
材料与方法一:患者数据收集情况
作者从GEO数据库中找到GSE46687数据集,一共包括36例样本,其中,有 16例TS患者被证实具有母系遗传的X染色体(45,Xm),10例TS患者被证实具有父系遗传的X染色体(45,Xp),10例正常女性(46,XX)。使用测序平台GPL570。
材料与方法二:图表结果及复现
01
使用工具
1)仙桃学术工具(https://www.xiantao.love/products),
2)BioGPS数据库(http://biogps.org/#goto=genereport&id=177)
3)Cytoscape
4)拼图工具,AI或仙桃。
02
复现任务
TABLE 1 | Differentially expressed genes of Turner Syndrome
表1 寻找TS的差异基因
TABLE 2 | Tissue-specific expressed genes identified by BioGPS
表2 利用BioGPS数据库查找组织特异性基因
TABLE 3 | The enriched terms for DEGs
表3 DEGs富集分析
TABLE 4 | Genes of interest.
表4 最终筛选的基因
FIGURE 1 | A heatmap of 85 differentially expressed genes between monosomy X TS patients and 46,XX normal individuals.
图1 热图展示差异基因
FIGURE 2 | Bar graph of 11 representative enriched functional terms.
图2 条形图展示11个富集功能信息
FIGURE 3 | 寻找hub genes
图3 寻找hub基因
03
复现步骤
图1 热图展示差异基因
首先,打开仙桃学术,点击数据集检索。
在检索框中,输入数据集GSE,随后点击检索。
点击选择样本,根据实验分组,选择前十个样本,设置为正常组Normal。
同样的方式,设置实验1组Case1。
同样的方式,设置实验2组Case2。
随后点击左侧的进入我的样本库。
依次选择分组1(Case),分组2(Normal)。点击右侧提交分析
同样的方法,将分组1改为Case2。提交分析。
稍等片刻,出现分析完成字样,可以先把分析资料下载到本地,随后再进行后续操作。
打开压缩包,点击分析报告
包含多个模块,主要结果部分,可以对分析的差异基因进行筛选。
火山图,热图可以对我们分析的差异基因进行可视化展示。
同样,对于图片中的细节,可以点击细节修改,进行精细化调整,包括修改字体大小,颜色等。
同样,在仙桃工具的高级版中,也有数据集分析模块。
点击火山图,选中差异分析的分组,点击确定。也可以获得热图,并保存。
将结果命名为热图1。
同样的操作步骤,将结果命名为热图2。
随后,根据原文中的设置,寻找两组的差异基因,即log>1,Padjust<0.05。
打开差异分析表格,Case1与正常样本的比较,即为Xm-XX组:
点击筛选,Padj,数字筛选
选择小于0.05
随后,点击logFC,进行数字筛选。
大于1或者小于-1的值
并按照logFC进行降序排列。
取logFC大于1的gene列,另存为Xm-XX Up,
同理,取logFC小于1的gene列,另存为Xm-XX Down。
打开差异分析表格,Case2与正常样本的比较,即为Xp-XX组:
点击筛选,Padj,数字筛选
选择小于0.05
随后,点击logFC,进行数字筛选。
大于1或者小于-1的值
并按照logFC进行降序排列。
取logFC大于1的gene列,另存为Xp-XX Up,
同理,取logFC小于1的gene列,另存为Xp-XX Down。
随后,将上述四组基因,放在一个excel表格中,如下图排序及命名。
选择仙桃工具-基础班-韦恩图,并上传excel文件
点击确认
保存结果。
随后,打开拼图工具,将上述的三张图进行图片拼接。
最终图1就拼好了。
表1 寻找TS的差异基因
阅读原文表1,即可发现,作者将两组差异分析的结果,统一整理到一个表格中,然后只需要分别显示上调or下调基因,这里忍不住再提一下,作者的表格制作方式,比较创新,并且非常精美,值得推荐参考~
我们只需要将韦恩图中获取的交集差异基因,按照这个方式进行排列即可,本部分操作步骤略。
表2 利用BioGPS数据库查找组织特异性基因
随后,作者利用BioGPS数据库,寻找基因的组织特异性表达,作者使用BioGPS(http://biogps.org) 来分析DEGS的组织特异性表达。
筛选的标准为:(1)组织特异性表达水平>中位数的10倍,以及(2)第二高表达水平不到最高水平的三分之一。
具体演示步骤:打开BioGPS数据库,分别将表1中的上调or下调基因输入数据库,然后查找在人体组织中,同样出现特意表达的基因。我们以AGER为例。
输入AGER点击查询。
可以看到,AGER在肺中高表达的。同样的操作,将其他基因输入,最终鉴定了23个在特定组织或器官系统中表达的基因。并整理成表2.
图2 条形图展示11个富集功能信息
这里,作者用Excel进行富集分析,我们可以将基因输入仙桃工具,获取GO富集分析图。
选择仙桃工具-功能聚类-GO|KEGG富集分析,在分子列表中输入基因名称,点击确认。
点击保存结果,在结果中显示获得的基因,随后可以选择GO|KEGG可视化模块。
温馨提示:这里面,美丽选择其中一组up交集进行的通路富集,与作者的分析略有出入,小伙伴学会分析方法即可,不需要太较真为何有的时候复现与原文不一致。我们学习复现,只是为了学会分析思路,并不需要百分之百复现作者原图,毕竟是作者已经发表的文章,哪怕我们原文完整复现,也不能拿来投稿哟。
表3 DEGs富集分析
根据上述GO、KEGG分析,作者最终选择以下通路进行展示。
我们可以直接将上面保存在仙桃工具中的GO|KEGG富集分析表下载,作为结果的展示。
当然,也可以进一步按照作者展示的模式,进行修改。
图3 寻找hub基因
将表1中的基因上传到仙桃工具-交互网络-PPI蛋白互作分析。复制基因至分子列表,基本参数:互作分数默认0.4中可信度,与文中描述一致。点击确认,获取结果。
将基因对应的上调or下调属性列为一个属性列表。
打开cytoscape软件,将上述两个文件分别导入。
导入互作关系列表。
点击OK。
随后,导入属性关系列表。
修改展示风格,按照属性(attribute)进行展示,上调为红色,下调为绿色。保存为图A。
选择MCODE模式
获得两组展示模式。分别点击每种模式下的基因,保存为图B,图C。
在AI或者仙桃工具中完成拼图工作。最终获得图2如下。
表4 最终筛选的基因
根据上面MCODE获取的Hub Gene,作者最终选择上述6个上调基因,10个下调基因作为最终纳入的Hub gene。
好了,以上是复现步骤。
全文总结
最后一个模块:根据本文的图表进行逻辑梳理
挑TABLE 1 | Differentially expressed genes of Turner Syndrome(表1,寻找TS的差异基因)
挑&靠TABLE 2 | Tissue-specific expressed genes identified by BioGPS( 表2利用BioGPS数据库查找组织特异性基因)
联TABLE 3 | The enriched terms for DEGs(表3DEGs富集分析)
挑TABLE 4 | Genes of interest.(表4 最终筛选的基因)
挑FIGURE 1 | A heatmap of 85 differentially expressed genes between monosomy X TS patients and 46,XX normal individuals.(图1 热图展示差异基因)
圈FIGURE 2 | Bar graph of 11 representative enriched functional terms.(图2 条形图展示11个富集功能信息)
联FIGURE 3寻找hub genes(图3 寻找hub基因)
作者利用GEO数据库,特别是特纳综合征的数据集,包含表达谱数据,虽然没有临床信息,但是作者巧妙的用了一个BiosGPS数据库,用人体组织代替临床信息,非常讨巧的思路,值得借鉴。随后,进行多轮Hub gene的筛选,将挑圈联靠应用到极致,并最终获得与特纳综合征相关的上下调分子。
本文的另一个亮点是对于数据信息的整理,条例逻辑非常清晰,虽然也是凑图,但是凑得特别有逼格,非常值得借鉴。
可以说,虽然本文是非肿瘤生信文章,但是研究套路,总体上离不开挑圈联靠四字真言。那么,非肿瘤分析的重中之重,在于数据的获取。我们都知道,TCGA数据库,只包含33种肿瘤信息,那么,对于非肿瘤的部分,需要从GEO或者专门的疾病数据库中获取,至于如何利用GEO数据库分析?一般有R语言,以及GEO2R在线网站两种方式,如今,有了仙桃工具,可以跨越科学上网的屏障,非常便利的获取分析结果。虽然目前只上线GPL570一个平台的数据,但是这个平台是目前测序数据量最大,应用最广泛的平台,完全满足我们日常挖掘分析,此外,技术小哥哥还在加班加点进行其他平台的数据清洗,相信不久后,更多的GEO数据集可以在仙桃工具上进行点点点式的分析。小伙伴们可以期待一下哦。
回顾一下,本文的复现,只需要依靠一个仙桃工具,联合一个互作软件,就能完美收官,这一波操作,是不是很赞。
文末彩蛋
此外,文末彩蛋,给大家列一下单基因的分析流程
怎么样,经过一系列的复现,是否现在摩拳擦掌,迫不及待地想要开始学习起来了,期待大家的复现之旅,也希望大家可以把自己在复现过程中遇到的问题发出来,我们可以在讨论区互动哦~