每天都有无数人靠公共数据库发文章,但很少有人知道,这些数据库是怎么来的。
今天我带你走一遍,从 1973 年到现在,五十年的故事。走完你就知道该从哪个库开始。
1973 — 一切的起点:SEER
故事从 1973 年开始。
那一年尼克松签了《国家癌症法案》,美国要对癌症宣战,但打仗得先知道敌人在哪。
于是 NCI 建了 SEER,全美第一个癌症登记系统。从那时起每一个癌症患者的诊断、分期、治疗、生存,全部记录在案。
五十年过去了,SEER 覆盖了美国一半人口,直接产出一万七千多篇论文。到今天它还是肿瘤流行病学的第一数据源。
1989-1999 — 种子被种下
接下来的二十年,更多种子被种下。
NHANES(1971 启动,1999 转为持续调查)—— 横截面研究的王者,PubMed 引用超过六万篇。
CHNS(1989)—— 中国健康与营养调查,北卡和中国 CDC 联合发起,追踪中国人的健康与营养变迁。这是中国最早向世界开放的健康数据库之一。
PhysioNet(1999)—— MIT 上线了一个专门分享临床数据的平台。你现在听到的 MIMIC、eICU、PIC,全都托管在这个平台上。PhysioNet 不是一个数据库,它是一个基础设施。
2000-2010 — 三股力量推动数据爆发
2000 年以后,事情加速了。三股力量同时推动。
第一股,法律强制。 ClinicalTrials.gov 上线,2007 年法律要求所有临床试验必须注册。现在它有五十万个试验,AACT 把这些数据变成了可以直接查询的数据库。
第二股,期刊要求。 Nature 说:你要发文章?先把基因表达数据交到 GEO。从此数据提交成了发表的前提条件。GEO 现在有二十万个研究、六百五十万个样本。
第三股,技术突破。 高通量测序让数据量爆炸,2006 年 TCGA 启动,对 33 种癌症做多组学特征化。两万多个样本,2.5 PB 的数据,PubMed 提及超过两万九千篇。它彻底改变了癌症从组织学分类到分子分类的范式。
也是这个时期,CTD、DepMap 的前身 CCLE、EPA 空气质量系统,都陆续上线了。
2015 — 临床 AI 的 ImageNet 时刻
2015 年发生了一件改变游戏规则的事。
MIT 发布了 MIMIC-III。六万次 ICU 入院记录,全部去标识化,全球免费开放。
这个库被引用了将近八千次。它被叫做临床 AI 的 ImageNet —— 就像 ImageNet 催生了计算机视觉的繁荣,MIMIC 催生了临床预测模型的大爆发。
ICU 死亡率预测、脓毒症早期预警、机械通气管理 —— 你能想到的重症 AI 研究,几乎都从 MIMIC 开始。
紧接着 2018 年,飞利浦开放了 eICU,二十万次多中心 ICU 数据。有了 eICU,MIMIC 的模型终于可以做外部验证了。
2019 — 中国登场
2019 年,中国也开始建自己的库了。
浙大儿童医院发布了 PIC,全球第一个公开可用的儿科 ICU 数据库。一万三千多次入住,一万两千多名患儿的数据,托管在 PhysioNet 上。
这意味着中国从公共数据库的使用者,变成了建设者。
同一时期,Broad 研究所的 DepMap 也正式上线。它用 CRISPR 做全基因组筛选,告诉你每个癌症真正依赖哪些基因。从描述突变到功能性验证,又是一次范式跳跃。
2021 至今 — 为 AI 设计的时代
到了 2021 年,风向又变了。
MIMIC-IV 发布,不再只是 ICU 数据,加上了二十万条急诊记录。从 ICU 库变成了整个急性期诊疗的数据库。
2023 年 CarpeDiem 开放,每天 44 个临床参数,模拟你每日查房看到的数据。
2024 年 NWICU 开放,十二家医院、两万八千次 ICU,跟 MIMIC-IV 数据结构对齐。
你发现了吗?新一代数据库不再是为人类翻阅设计的,它们是为机器学习设计的。数据结构标准化,跨库可以直接验证。
同时影像领域也在爆发:CheXpert 有二十万张胸片,PTB-XL 有两万份心电图,Kvasir 有内镜图像,CAMELYON 有全切片病理。几乎每个影像方向,都有公开数据集可用了。
这条路,我已经走过了
说了这么多历史,跟你有什么关系?关系大了。
五十年前,做研究必须有自己的数据。没有实验室,没有队列,你就什么都做不了。
今天不一样了。几十个公共数据库免费开放,从重症到肿瘤,从流行病学到基因组学,从心电图到病理切片。
而且数据库可以组合使用。MIMIC 建模加 eICU 验证,SEER 临床加 TCGA 分子验证,NHANES 主分析加 CHNS 跨人群。这些组合策略,才是公共数据库发文的门道。
| 你的方向 | 推荐组合 |
|---|---|
| 新手 | NHANES 或 SEER |
| 重症 | MIMIC + eICU |
| 肿瘤 | SEER + TCGA + GEO |
所有这些库都是免费的,大部分在 PhysioNet 上申请账号签协议就能用。
这条路,我已经走过了。