尔云间 一个专门做科研的团队
关注我们
SEER数据库是什么?
有哪些数据?如何分析?
这篇文章能满足你!
- SEER数据库是什么?
SEER(Surveillance, Epidemiology, and End Results Program)数据库是美国国立癌症研究所“监测、流行病学和结果”数据库,
网址:
https://seer.cancer.gov/SEER
- SEER数据库内容有什么?
- 收录的肿瘤类型:数据库所涉及的肿瘤被划分为9类:乳腺肿瘤、结肠与直肠肿瘤、其他消化系统肿瘤、女性生殖系统肿瘤、淋巴系统肿瘤与血液系统肿瘤、男性生殖肿瘤、呼吸系统肿瘤、泌尿系统肿瘤及其他尚未确定的类型。其中最大的四个癌症组是肺癌、结肠癌/直肠癌、乳腺癌和前列腺癌。
- 收录的范围:美国部分州县(约35%的美国人口)的发病率、死亡率和患病情况等信息。
- 收录的资料:数据记录中包括患者的注册编号、个人信息、原发肿瘤部位、肿瘤形态和尺寸、部分免疫组化、诊断阶段、治疗方案、生存状态随访和死亡原因等临床回顾性数据。
- 数据更新:SEER提交的数据将在每年的十一月进行检查,在第二年的四月份开放使用。
- 基于SEER数据库的发文情况?
SEER是临床常用的公共数据库,包含大量的临床回顾性研究资料,数据获取方便,而且是公开免费的。对于有思路却苦于无数据的小伙伴,SEER数据库是一个不错的选择。PubMed搜索显示,以SEER数据库为数据来源的SCI文章正逐年增长。
其中国人发表数量的占比在2022年达到了66.83%。
在文章发表的国家里,中国排名第一,是第三名(加拿大)发表数量的近10倍,可见用SEER数据库发文文章很受国人喜爱。
(不知道如何利用SEER数据库进行分析或发文章的可以找小云~)
看到这你可能会问:既然已经有这么多人发表了,那我还有机会吗?
小云告诉你:当然有。
目前SEER数据库的年发文量最高也才不到2千,而同类型的MIMIC数据库已经达到了年发文7000+。
而且权威期刊也刊登了不少基于SEER数据挖掘的文章。
比如柳叶刀发表一篇分析原发性脑肿瘤手术治疗中的种族和社会经济差异的文章,分析纳入了SEER数据库的成人脑肿瘤数据。
再比如JAMA Network OPEN发表的一篇基于SEER数据库挖掘的文章,分析了1975年至2019年美国黑色素瘤治疗和死亡率趋势,所用数据均来自于SEER数据库。
中国医学科学院/北京协和医学院赫捷院士团队发表在Annals of Surgical Oncology上的一项研究,纳入的数据也是来自于SEER数据库。
- 如何利用SEER数据库进行分析?
其实利用SEER数据库进行分析,也有基本的分析思路,大体分为:
- 设计分析方案,根据分析的目的选择数据库数据;
- 提取数据,合并数据;
- 根据纳入排除标准,筛选满足条件的数据;
- 对数据进行整理,并进行统计分析。
基于SEER数据库的临床预测模型的分析方法很容易复现。
小云今天以一篇4分+的文章为例,看一下分析思路。
发表杂志:Cancer medicine
影响因子:4.711
文章题目:60岁以上骨肉瘤患者系统列线图的建立和验证:一项多中心外部验证研究
发表时间:2023年3月
数据信息
研究思路
研究目的是开发和验证系统nomogram预测60岁以上骨肉瘤患者的癌症特异性生存期(CSS)和总生存期(OS)。使用来自SEER数据库的数据,并确定了2004年至2015年间诊断的60岁以上骨肉瘤患者。并从多个医疗中心招募了56名符合研究要求的患者作为外部验证组来验证和分析模型。收集所有可用变量,最后通过Cox回归分析,选择了8个与CSS和OS有统计学相关性的变量。整合识别的变量,分别构建3年和5年的OS和CSS nomogram,并通过计算c指数对其进行进一步评价。用校正曲线来评价模型的精度。受试者工作特征(ROC)曲线测量了nomogram的预测能力。所有基于患者的变量采用Kaplan-Meier分析,探讨各种因素对患者生存的影响。最后,运用决策曲线分析(DCA)曲线分析模型是否适合在临床实践中应用。
主要研究结果
1. 收集患者数据并整理资料
收集SEER数据库中2004年至2015年期间60岁或以上的骨肉瘤患者,获得完整数据306例,图1是数据的排除流程图。整理所有患者的具体临床资料及病理特征。
图1.数据排除流程
2. Kaplan-Meier生存分析
利用所有临床变量和骨肉瘤患者的病理特征,使用Kaplan-Meier分析来计算结果,绘制生存曲线(图2)。其中70 ~ 79岁患者的预后优于60 ~ 69岁和80岁患者。接受手术治疗的患者预后明显强于接受手术治疗的患者。
(ps:生存分析可以用小云新开发的零代码生信分析小工具实现,云生信分析工具平台包含超多零代码分析和绘图小工具,上传数据一键出图,感兴趣的小伙伴欢迎来尝试哟,网址:
http://www.biocloudservice.com/home.html)。
图2. 60岁以上骨肉瘤患者的Kaplan-Meier总生存期分析
3. 构建总生存期(OS)的nomogram
对患者资料进行Cox回归分析,发现60岁以上骨肉瘤患者的总生存期(OS)在年龄、性别、肿瘤分级和大小等8个变量上最具统计学意义。因此,选择这八个变量来构建OS的nomogram(图3)。目的是实现60岁以上患者OS的个性化预测。
图3. 预测60岁以上骨肉瘤3- 5年OS的Nomogram
4. 构建癌症特异性生存期(CSS)的nomogram
对患者资料进行Cox回归分析,发现年龄、性别、分级、肿瘤大小等是影响60岁以上骨肉瘤患者CSS的最具统计学意义的变量。因此,选择这些变量来构建CSS的nomogram (图4)。
图4. 60岁以上骨肉瘤3- 5年CSS预测Nomogram
5. OS和CSS列线图的验证
使用校准曲线来验证nomogram预测结果相对于真实发病率的准确性(图5)。(ps:理想情况下,当校准曲线为对角线时,校准曲线的预测概率等于实际概率。一般来说,不是一条直对角线,但越靠近对角线,预测效果越好。)结果发现从研究中得到的校准曲线与其45°对角线有很好的拟合。
图5. 建立了nomogram校准图
采用ROC曲线评价的3- 5年OS的预测性能(图6)。
图6. 已构建的nomogram的受试者工作特征(ROC)
还利用决策曲线分析(DCA)从训练人群中计算出的nomogram在临床应用中具有重要的意义和有效性(图7)。
图7. 预测nomogram决策曲线分析(DCA)
总结
这篇文章就是基于SEER数据库的数据进行分析的文章,整体分析思路就是构建临床预测模型,比较容易复现。
如果你也想发表一篇类似的研究,基于SEER数据库开发临床预测模型,发表一篇SCI的话,可以来咨询小云。SEER数据库中的海量数据,总有一个分析角度适合你~
如果你还苦恼于生信分析没有思路,或者嫌分析方法太过简单、太过老套,想要创新思路的,或者对SEER数据库挖掘感兴趣的小伙伴快来联系小云吧!
如果你还苦恼于生信没有思路,或者嫌分析方法太过简单、太过老套,想要创新思路的,或者对新的热点方向感兴趣的小伙伴快来联系小云吧
小云可以提供如下服务:免费评估服务、付费设计服务、定制化生信分析等。超多个性化、创新性高的分析思路供你选择!
您是否遇到过以下问题?
作为生物医学研究者,已经有了一些数据,但是想发表出来,让更多的研究者使用?
在数据采集和整理过程中,耗费了大量时间和精力,却得到了低质量的数据?
想要开展复杂的生物信息学分析,但是缺乏可靠的数据库支持?
我们提供以下服务:
1. 数据库构建和维护
我们拥有丰富的数据库构建和维护经验,可以根据客户需求,设计和搭建符合要求的数据库系统。我们可以为您提供基于云计算架构的数据库服务器,确保您的数据安全、稳定和高效。
2. 数据采集和整理
我们的专业团队可以通过世界各地的公共生物信息学数据库和网络资源,收集并整理各种基因、蛋白质和代谢产物数据。我们将数据进行标准化处理、数据质量控制和格式转换等操作,确保数据的准确性和完整性。
3. 数据库管理和更新
我们的技术人员可以定期管理和更新数据库,包括添加新的数据集、维护和更新数据库软件、备份和恢复数据库等。我们确保数据库的稳定性和可靠性,在第一时间解决任何问题。
4. 数据库分析和挖掘
我们的生物信息学专家可以根据客户需求,进行多种数据分析、数据挖掘、统计分析等工作。我们可以为您提供丰富的生物信息学分析方法和工具,帮助您深入挖掘和利用数据。
与我们合作的好处:
我们已经服务了超过900名客户,并成功构建了超过数十个生物信息学数据库。
我们可以提供量身定制的服务,满足您的各种需求。
我们可以帮助您节省时间和人力成本,并提高数据质量和分析效率。
我们可以提供高级的技术支持和咨询服务,帮助您解决各种生物信息学问题。
我们的客户反馈非常好,他们表示对于我们的服务很满意,其中99%的客户都愿意再次选择我们
如果您对我们的生物信息学数据库构建服务感兴趣,欢迎联系我们,我们将根据您的具体需求,提供最优质、最合适的解决方案。