欢迎来到医科研,这里是白介素2的读书笔记,跟我一起聊临床与科研的故事, 生物医学数据挖掘,R语言,TCGA、GEO,SEER数据挖掘。
SEER数据的内容完善
SEER数据为所有原发侵袭性癌和其他某些诊断(例如原位癌)收集的数据包括诊断日期和人口统计变量,例如诊断时的年龄,性别,种族/民族和居住的县。从健康记录中提取与第一疗程有关的手术管理和/或放射治疗数据;
1983年增加了详细的手术切除方案。
并于1998年完成了所有肿瘤类型的手术切除方案。该程序会记录放射治疗的类型以及分娩是新辅助,辅助还是术中的,还可以根据具体要求评估化学疗法的使用数据(是,否或未知)。
SEER还根据2000年《国际肿瘤分类学》第3版或ICD-O-3.收集解剖部位,配对器官的偏侧性,大小和组织病理学类型的肿瘤数据。
2004年添加了一些癌症的肿瘤标志物,例如睾丸癌,乳腺癌和前列腺癌。
截至2010年,根据美国癌症联合委员会AJCC第7版增加了肿瘤等级,扩展/转移,部位特异性因素和分期数据。
癌症数据每年更新一次,以获取生存状态,生存时间和死亡原因等信息。SEER最初的7个癌症登记中心的随访时间现已超过40年。生存状态通过与National Death Index链接以及通过医疗记录摘要获得的最近一次已知联系的日期的补充数据来确认。SEER被认为是美国和全球癌症注册机构中数据质量的黄金标准。通过与地区注册机构的合同协议来保证质量,并且在传输数据之前必须满足SEER的标准
SEER数据的开放
SEER允许不受限制地访问SEER网站www.seer.cancer.gov,SEER数据的复制和获取无需经过许可。癌症统计资料审查(Cancer Statistic Review)”选项以易于理解的文字,图表和图形提供所有癌症和特定部位癌症的摘要信息。除了癌症数据集外,SEER中的其他数据集还有SEER地区的标准人口数据,美国死亡率数据以及与人口普查区域社会经济状况索引或县属性相关联的美国人口数据。这些数据可用于与SEER癌症数据进行匹配分析。除此以外SEER数据还与其它数据库链接以支持更深层次的研究挖掘。包括:Medicare, Medicare Health Outcomes Survey (SEER-MHOS),National Longitudinal Mortality Study (NLMS), 以及链接的生物样本。
划重点:SEER提供专门用于提取分析数据的软件:包括SEER * Stat,SEER PREP,JointPoint,Health Disparities Calculator。只需要填写申请表格申请下即可免费使用所有数据库和软件,附上表格的链接(www.seer.cancer.gov/data/access_seer_data.pdf)。
SEER生物样本试点计划
SEER非常重视病理材料的可用性,以进行免疫组织化学(IHC)检测和二代代测序等分析。RTR和最新提出的VTR是近期的试点计划,旨在扩大各种癌症病例的病理学材料的“生物储备”,并将组织链接(注释)到完整的SEER数据集9。RTR维护来自3个癌症登记机构(爱荷华州,夏威夷和洛杉矶)的组织,并且由福尔马林固定石蜡包埋的组织块在所有特定部位的癌症上组成。到2010年已检测的癌组织数量达到141,241,最大的四个癌症组是肺癌,结肠癌/直肠癌,乳腺癌和前列腺癌。研究人员可以通过提交在线申请(www.seer.cancer.gov/biospecimen/application.html)并提供拟进行的研究的简要摘要,来访问基于人群的资料,也可以使用某些癌症的组织微阵列数据,例如乳腺癌,卵巢癌和结肠/直肠癌。
VTR是一个试点项目,涉及7个SEER注册管理机构。最初的试点旨在提供有关成本和最佳实践的信息,以将该过程扩展到更大的SEER注册中心。它将专门探讨存活至少5年的胰腺导管腺癌患者和在短时间内死于癌症的局部淋巴结阴性女性乳腺癌患者。病例将与具有更典型生存模式的对照相匹配,并将基于逻辑回归模型中确定的肿瘤和人口统计学特征。最初的试点项目将定义基于人群的生物样本采集的最佳实践。将收集定制的注释信息,包括合并症,详细的化疗,复发时间和结果。实验室调查将收集有关组织位置,检索成本以及将不明身份的数据提供给研究人员的要求的信息。试点项目还将探索获取材料的最佳实践,以及与数字图像和病理学检查的联系。目标是扩大未来的VTR,以支持当前广泛的癌症研究问题。