SEER数据库+机器学习算法+TCGA数据库验证,速来围观!
尔云间 一个专门做科研的团队
欢迎点赞+收藏+关注
来来来,小云又发现了一篇临床公共数据库挖掘好文,邀请各位小伙伴们一起来品鉴呀~ ~
(ps:云生信已解锁视频内容,生信相关直播回放,生信热点思路、生信实操等内容花样更新,关注小云啦!)
为什么最近一直在推荐“临床公共数据库挖掘”的文章呢?
那是因为这是一个突破生信内卷的绝佳途径,并且比常规生信更容易发高分,发顶刊!还有一点就是临床公共数据库挖掘的数据量非常大,所以挖掘潜力就会比较大,并且整体分析并不难,也不用加验证实验,性价比超高!(ps:还没有看到小云前面推荐的“临床公共数据库”挖掘文章的朋友,可以点击文末链接查看一下,千万不要错过这个发文好途径~)
今天要分享的这篇文章创新性更绝,文章利用SEER数据库进行机器学习算法分类系统构建,然后在TCGA数据库中进行验证,不仅将SEER数据库和TCGA联合起来使用,还用上了机器学习算法,所以能只用4张图就发到了10分+的Nature子刊就不足为奇了!这种好文,快来围观一下吧~
最后小云还要提醒一下朋友们:随着临床公共数据挖掘文章数量的爆发式增长,后面发文竞争力增大,想发高分就没那么容易了,所以我们要跟上热潮,抓住时机,一举拿下高分!
题目:潜在类别分析衍生的分类改善了结直肠癌分子亚型的癌症特异性死亡分层
杂志:npj Precis. Onc.
影响因子:IF=10.092
发表时间:2023年6月
研究背景
作为全球最常见的癌症之一,结直肠癌(CRC)的特征在于临床和生物学特征的高度异质性,导致不同的治疗反应和预后。共有分子亚型(CMS)代表了目前在基因表达水平上对肿瘤异质性的最佳描述,然而,基于分子特征的分类系统由于无法区分癌症特异性死亡,所以在准确预测分层方面存在局限性。这项研究旨在建立一个分类系统,将临床特征、特定原因死亡和分子特征联系起来。
数据来源
研究思路
本研究基于SEER数据库的数据,进行了潜在类别分析(LCA),将可能影响癌症特异性生存的因素(年龄、性别、种族、肿瘤部位和分期)作为指标变量来细化CRC患者,并建立了一个结直肠癌的四部分分类系统。随后利用该分类来区分CRC特异性死亡,并通过CMS调整CRC预后的预测。最后将LCA衍生的分类方案进一步应用于TCGA数据库,以评估其在提高基于分子的CRC亚型的准确分层方面的有效性。
图1研究流程图
主要结果
1.纳入人群特征
研究共纳入491107例首次原发性结直肠癌患者,在整个随访期间,共有268034名患者死亡,其中43.72%归因于非结直肠癌原因,尤其是心血管疾病。随访时间范围为0-20.9年,中位随访时间为3.9年。大多数患者的特征包括男性(52.24%),诊断年龄在45-69岁之间(51.84%),非西班牙裔白人(68.51%),已婚(56.71%)等(表S1)。
表S1 SEER数据库中患者的人口统计学和临床病理学特征
2.基于SEER数据库的LCA衍生分类分析
作者使用LCA模型拟合评估确定患者的隐藏亚组,选择最佳模型拟合是一个四类解决方案,它具有低贝叶斯信息标准(BIC) (4858200.0)和样本大小调整后的BIC (SABIC) (4858050.7),熵为4.946,表明类别明显分离。这些类别被命名为LCA衍生类别(LCACs )(图2a)。作者随后分析了指标变量在潜在类别中的贡献比例(图2b),以及CRC特异性死亡和非CRC死亡的累积发病率(图2c),发现LCAC1 (47.63%的患者)在诊断时45-69岁的条件概率最高(72.96%),男性的可能性较高(68.49%),肿瘤位于远端(左侧结肠和直肠,96.69%)。这组患者死于结直肠癌的可能性较小,但死于非结直肠癌的可能性较大。随机森林预后分析显示,LCA衍生的分类与病因特异性生存率相关,与死于CRC的概率最低的LCAC1相比,LCAC2、LCAC3和LCAC4死于CRC的风险增加(图2e)。
图2 基于SEER数据库的LCA衍生分类
3.LCA衍生分类的比较和临床应用
在存在竞争风险事件的情况下,Aalen-Johansen方法解释了竞争事件和感兴趣事件的互斥性,提供了感兴趣事件累积发生率的无偏估计。为了评估是否可以通过调整LCA衍生的分类来减少由于竞争性风险事件(非CRC死亡)的存在而导致的生存预测偏差,作者比较了通过调整LCA衍生的分类与Aalen-Johansen估计量、Kaplan-Meier估计量以及调整指标变量所估计的死亡累积发生率函数(CIF)。结果发现,在四个亚组中,特别是在诊断时年龄为45-69岁的个体亚组中,调整LCA衍生分类的估计值提供了更接近Aalen-Johansen方法的估计值,这表明年龄是非结直肠癌死亡的更强预测因素(图3a)。
利用SEER放射治疗数据评估LCA衍生分类的临床应用,观察到在LCAC2和LCAC3组中,接受放射治疗的III期右侧结肠癌患者的生存率较低,而在LCAC1和LCAC4组中,左侧结肠癌的生存率也较低。这些结果证明放射治疗可能不会使结肠癌患者受益,特别是在非晚期病例中。晚期结肠癌患者的放疗益处似乎仅限于特定人群,如LCAC2组的右侧结肠癌等(图3b,c)。
图3 LCA衍生分类的比较和临床应用
4.在TCGA数据库中验证LCA衍生分类
为了进一步评估LCA衍生的分类,作者使用具有最佳类别数的LCA模型计算了TCGA (RRID: SCR_003193)个体的类别分配概率(图4a)。患者根据他们最大的可能性被分类。然后,比较了四种CMS亚型的生存率,并对LCA衍生的分类进行了调整,以探索是否可以通过考虑非结直肠癌死亡原因来改善CMS在结直肠癌中的临床效用。在调整LCA衍生的分类后,尽管作者仅观察到在OS中CMS1和CMS4的存活曲线之间有统计学显著差异,但在总体人群和每个配对组中,C指数和robust评分增加,说明预测CRC患者预后的性能有所提高(图4b-g)。
图4 在TCGA数据库中验证LCA衍生分类的性能
小结
这篇文章利用SEER数据库进行机器学习分类系统构建,并利用TCGA数据库验证分类器的性能。文章联合了SEER数据库和TCGA数据库,并扯上机器学习这面大旗,创新性想不高都难呀,所以发到10分+的文章也轻松不在话下!如果你想在临床数据挖掘方向发高分文章,快来尝试一下这个思路吧!
小云公众号持续为大家带来最新生信思路,更多创新分析思路请点击下方链接。需要复现或定制分析思路的朋友欢迎call小云,风里雨里小云公众号等你!
1. 72分+的Lancet子刊!NHANES临床公共数据库挖掘也能发顶刊!