欢迎来到医科研,这里是白介素2的读书笔记,跟我一起聊临床与科研的故事, 生物医学数据挖掘,R语言,TCGA、GEO数据挖掘。
背景摘要
美国国家癌症研究所(National Cancer Institute)的SEER数据库收集了大约30%的美国人口的癌症诊断,治疗和生存数据。为了反映研究和肿瘤学实践的进步,癌症控制的方法正在不断发展,从简单地按人群中器官部位枚举癌症的发展到包括通过组织病理学和分子亚型(由驱动程序突变和其他改变)来监测癌症的发生。SEER是一个重要的基于人群的资源,可用于研究跨人口统计学特征,地理区域和时间的病理诊断含义,已成为美国肿瘤学实践的独特研究资源(注意是美国的数据)。它提供了不同组织病理学癌症亚型的发病率,生存率和死亡率数据,并且分子分型的数据也在扩展。该数据库正在进一步开发,以捕获其他生物标志物数据,特殊人群的结果,并扩大生物样本库,以支持能够改善肿瘤学实践的前沿癌症研究。
由于分子生物学的进步,包含组织病理学数据与分子表达谱数据都用以定义肿瘤分型,其中著名的TCGA数据库是一个代表性的数据库,成为临床肿瘤研究与流行中的重要组成部分。将分子数据与传统组织病理数据整合起来用于重新定义肿瘤分型正在重新定义肿瘤实践。
SEER计划
SEER计划由总统理查德·尼克松(Richard Nixon)于1973年1月1日发起,是《国家癌症法》的一部分。SEER收集有关在代表性地理区域和亚人群中诊断出的所有癌症的人口统计,临床和结果信息。纳入的区域是根据其操作和维护高质量的基于人群的癌症报告系统或癌症注册系统的能力来选择的。最初,包括具有流行病学意义上重要的种族和少数族裔亚组的7个SEER注册中心,现在已逐步扩展到当前的18个(SEER)癌症注册中心。
image.png SEER数据简介
SEER目前每年捕获400,000个癌症病例,并存储大约30%的美国人口的癌症数据。病理报告是提取SEER数据的重要来源,在大约80%的病例中,病理报告是从大约360个实验室以电子方式实时获得的。
将提取的病理数据与其他来源的数据合并到最终病例记录中。这些来源包括患者病历,从独立的诊断影像和化疗诊所收集的报告以及死亡证明。传统癌症注册工作人员提取标准数据项,然后将相应的文本手动输入到数据收集模板中,近80%的实验室使用电子病理报告功能有潜力启用自然语言处理(NLP)软件来自动编码数据字段。然后这些摘要记录由注册工作人员进行审查,将检查、编辑所有数据并将其合并到年度登记数据库中,并以身份不明的形式将其提交给美国国家癌症研究所(NCI)。SEER提交的数据将在每年的11进行质量控制和完整性检查,这些数据将在来年的4月份开放使用。
值得注意的是,SEER不会收集有关整个美国人口的数据。但是,它确实与北美中央癌症登记处协会(NAACCR)和NPCR进行了协调,以收集美国总人口的癌症数据。联邦癌症统计数据的年度报告发布为“美国癌症统计数据:发病率和死亡率报告”,涵盖了来自45个州的96%的美国人口。
[参考文献]https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5106320/