从 1973 到 AI 时代：医学公共数据库五十年

Thu, 16 Apr 2026 00:00:00 +0000

每天都有无数人靠公共数据库发文章，但很少有人知道，这些数据库是怎么来的。

今天我带你走一遍，从 1973 年到现在，五十年的故事。走完你就知道该从哪个库开始。

1973 — 一切的起点：SEER

故事从 1973 年开始。

那一年尼克松签了《国家癌症法案》，美国要对癌症宣战，但打仗得先知道敌人在哪。

于是 NCI 建了 SEER，全美第一个癌症登记系统。从那时起每一个癌症患者的诊断、分期、治疗、生存，全部记录在案。

五十年过去了，SEER 覆盖了美国一半人口，直接产出一万七千多篇论文。到今天它还是肿瘤流行病学的第一数据源。

1989-1999 — 种子被种下

接下来的二十年，更多种子被种下。

NHANES（1971 启动，1999 转为持续调查）—— 横截面研究的王者，PubMed 引用超过六万篇。

CHNS（1989）—— 中国健康与营养调查，北卡和中国 CDC 联合发起，追踪中国人的健康与营养变迁。这是中国最早向世界开放的健康数据库之一。

PhysioNet（1999）—— MIT 上线了一个专门分享临床数据的平台。你现在听到的 MIMIC、eICU、PIC，全都托管在这个平台上。PhysioNet 不是一个数据库，它是一个基础设施。

2000-2010 — 三股力量推动数据爆发

2000 年以后，事情加速了。三股力量同时推动。

第一股，法律强制。 ClinicalTrials.gov 上线，2007 年法律要求所有临床试验必须注册。现在它有五十万个试验，AACT 把这些数据变成了可以直接查询的数据库。

第二股，期刊要求。 Nature 说：你要发文章？先把基因表达数据交到 GEO。从此数据提交成了发表的前提条件。GEO 现在有二十万个研究、六百五十万个样本。

第三股，技术突破。 高通量测序让数据量爆炸，2006 年 TCGA 启动，对 33 种癌症做多组学特征化。两万多个样本，2.5 PB 的数据，PubMed 提及超过两万九千篇。它彻底改变了癌症从组织学分类到分子分类的范式。

也是这个时期，CTD、DepMap 的前身 CCLE、EPA 空气质量系统，都陆续上线了。

2015 — 临床 AI 的 ImageNet 时刻

2015 年发生了一件改变游戏规则的事。

MIT 发布了 MIMIC-III。六万次 ICU 入院记录，全部去标识化，全球免费开放。

这个库被引用了将近八千次。它被叫做临床 AI 的 ImageNet —— 就像 ImageNet 催生了计算机视觉的繁荣，MIMIC 催生了临床预测模型的大爆发。

ICU 死亡率预测、脓毒症早期预警、机械通气管理 —— 你能想到的重症 AI 研究，几乎都从 MIMIC 开始。

紧接着 2018 年，飞利浦开放了 eICU，二十万次多中心 ICU 数据。有了 eICU，MIMIC 的模型终于可以做外部验证了。

2019 — 中国登场

2019 年，中国也开始建自己的库了。

浙大儿童医院发布了 PIC，全球第一个公开可用的儿科 ICU 数据库。一万三千多次入住，一万两千多名患儿的数据，托管在 PhysioNet 上。

这意味着中国从公共数据库的使用者，变成了建设者。

同一时期，Broad 研究所的 DepMap 也正式上线。它用 CRISPR 做全基因组筛选，告诉你每个癌症真正依赖哪些基因。从描述突变到功能性验证，又是一次范式跳跃。

2021 至今 — 为 AI 设计的时代

到了 2021 年，风向又变了。

MIMIC-IV 发布，不再只是 ICU 数据，加上了二十万条急诊记录。从 ICU 库变成了整个急性期诊疗的数据库。

2023 年 CarpeDiem 开放，每天 44 个临床参数，模拟你每日查房看到的数据。

2024 年 NWICU 开放，十二家医院、两万八千次 ICU，跟 MIMIC-IV 数据结构对齐。

你发现了吗？新一代数据库不再是为人类翻阅设计的，它们是为机器学习设计的。数据结构标准化，跨库可以直接验证。

同时影像领域也在爆发：CheXpert 有二十万张胸片，PTB-XL 有两万份心电图，Kvasir 有内镜图像，CAMELYON 有全切片病理。几乎每个影像方向，都有公开数据集可用了。

这条路，我已经走过了

说了这么多历史，跟你有什么关系？关系大了。

五十年前，做研究必须有自己的数据。没有实验室，没有队列，你就什么都做不了。

今天不一样了。几十个公共数据库免费开放，从重症到肿瘤，从流行病学到基因组学，从心电图到病理切片。

而且数据库可以组合使用。MIMIC 建模加 eICU 验证，SEER 临床加 TCGA 分子验证，NHANES 主分析加 CHNS 跨人群。这些组合策略，才是公共数据库发文的门道。

你的方向	推荐组合
新手	NHANES 或 SEER
重症	MIMIC + eICU
肿瘤	SEER + TCGA + GEO

所有这些库都是免费的，大部分在 PhysioNet 上申请账号签协议就能用。

这条路，我已经走过了。

TCGA on 双脑实验室