<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>TCGA on 双脑实验室</title><link>https://csilab.net/tags/tcga/</link><description>Recent content in TCGA on 双脑实验室</description><generator>Hugo -- gohugo.io</generator><language>zh-CN</language><lastBuildDate>Thu, 16 Apr 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://csilab.net/tags/tcga/index.xml" rel="self" type="application/rss+xml"/><item><title>从 1973 到 AI 时代：医学公共数据库五十年</title><link>https://csilab.net/p/medical-databases-50years/</link><pubDate>Thu, 16 Apr 2026 00:00:00 +0000</pubDate><guid>https://csilab.net/p/medical-databases-50years/</guid><description>&lt;div class="video-wrapper" style="position: relative; width: 100%; padding-bottom: 56.25%; margin: 1.5rem 0;">
 &lt;iframe
 src="//player.bilibili.com/player.html?bvid=BV1jzdhBpEKE&amp;page=1&amp;high_quality=1&amp;danmaku=0&amp;autoplay=0"
 scrolling="no"
 border="0"
 frameborder="no"
 framespacing="0"
 allowfullscreen="true"
 style="position: absolute; top: 0; left: 0; width: 100%; height: 100%; border-radius: 8px;">
 &lt;/iframe>
&lt;/div>

&lt;p>每天都有无数人靠公共数据库发文章，但很少有人知道，这些数据库是怎么来的。&lt;/p>
&lt;p>今天我带你走一遍，从 1973 年到现在，五十年的故事。走完你就知道该从哪个库开始。&lt;/p>
&lt;h2 id="1973--一切的起点seer">1973 — 一切的起点：SEER
&lt;/h2>&lt;p>故事从 1973 年开始。&lt;/p>
&lt;p>那一年尼克松签了《国家癌症法案》，美国要对癌症宣战，但打仗得先知道敌人在哪。&lt;/p>
&lt;p>于是 NCI 建了 SEER，全美第一个癌症登记系统。从那时起每一个癌症患者的诊断、分期、治疗、生存，全部记录在案。&lt;/p>
&lt;p>五十年过去了，SEER 覆盖了美国一半人口，直接产出一万七千多篇论文。到今天它还是肿瘤流行病学的第一数据源。&lt;/p>
&lt;h2 id="1989-1999--种子被种下">1989-1999 — 种子被种下
&lt;/h2>&lt;p>接下来的二十年，更多种子被种下。&lt;/p>
&lt;p>&lt;strong>NHANES&lt;/strong>（1971 启动，1999 转为持续调查）—— 横截面研究的王者，PubMed 引用超过六万篇。&lt;/p>
&lt;p>&lt;strong>CHNS&lt;/strong>（1989）—— 中国健康与营养调查，北卡和中国 CDC 联合发起，追踪中国人的健康与营养变迁。这是中国最早向世界开放的健康数据库之一。&lt;/p>
&lt;p>&lt;strong>PhysioNet&lt;/strong>（1999）—— MIT 上线了一个专门分享临床数据的平台。你现在听到的 MIMIC、eICU、PIC，全都托管在这个平台上。PhysioNet 不是一个数据库，它是一个&lt;strong>基础设施&lt;/strong>。&lt;/p>
&lt;h2 id="2000-2010--三股力量推动数据爆发">2000-2010 — 三股力量推动数据爆发
&lt;/h2>&lt;p>2000 年以后，事情加速了。三股力量同时推动。&lt;/p>
&lt;p>&lt;strong>第一股，法律强制。&lt;/strong> ClinicalTrials.gov 上线，2007 年法律要求所有临床试验必须注册。现在它有五十万个试验，AACT 把这些数据变成了可以直接查询的数据库。&lt;/p>
&lt;p>&lt;strong>第二股，期刊要求。&lt;/strong> Nature 说：你要发文章？先把基因表达数据交到 GEO。从此数据提交成了发表的前提条件。GEO 现在有二十万个研究、六百五十万个样本。&lt;/p>
&lt;p>&lt;strong>第三股，技术突破。&lt;/strong> 高通量测序让数据量爆炸，2006 年 TCGA 启动，对 33 种癌症做多组学特征化。两万多个样本，2.5 PB 的数据，PubMed 提及超过两万九千篇。它彻底改变了癌症从组织学分类到分子分类的范式。&lt;/p>
&lt;p>也是这个时期，CTD、DepMap 的前身 CCLE、EPA 空气质量系统，都陆续上线了。&lt;/p>
&lt;h2 id="2015--临床-ai-的-imagenet-时刻">2015 — 临床 AI 的 ImageNet 时刻
&lt;/h2>&lt;p>2015 年发生了一件改变游戏规则的事。&lt;/p>
&lt;p>MIT 发布了 &lt;strong>MIMIC-III&lt;/strong>。六万次 ICU 入院记录，全部去标识化，全球免费开放。&lt;/p>
&lt;p>这个库被引用了将近八千次。它被叫做&lt;strong>临床 AI 的 ImageNet&lt;/strong> —— 就像 ImageNet 催生了计算机视觉的繁荣，MIMIC 催生了临床预测模型的大爆发。&lt;/p>
&lt;p>ICU 死亡率预测、脓毒症早期预警、机械通气管理 —— 你能想到的重症 AI 研究，几乎都从 MIMIC 开始。&lt;/p>
&lt;p>紧接着 2018 年，飞利浦开放了 &lt;strong>eICU&lt;/strong>，二十万次多中心 ICU 数据。有了 eICU，MIMIC 的模型终于可以做外部验证了。&lt;/p>
&lt;h2 id="2019--中国登场">2019 — 中国登场
&lt;/h2>&lt;p>2019 年，中国也开始建自己的库了。&lt;/p>
&lt;p>浙大儿童医院发布了 &lt;strong>PIC&lt;/strong>，全球第一个公开可用的儿科 ICU 数据库。一万三千多次入住，一万两千多名患儿的数据，托管在 PhysioNet 上。&lt;/p>
&lt;p>这意味着中国从公共数据库的&lt;strong>使用者&lt;/strong>，变成了&lt;strong>建设者&lt;/strong>。&lt;/p>
&lt;p>同一时期，Broad 研究所的 &lt;strong>DepMap&lt;/strong> 也正式上线。它用 CRISPR 做全基因组筛选，告诉你每个癌症真正依赖哪些基因。从描述突变到功能性验证，又是一次范式跳跃。&lt;/p>
&lt;h2 id="2021-至今--为-ai-设计的时代">2021 至今 — 为 AI 设计的时代
&lt;/h2>&lt;p>到了 2021 年，风向又变了。&lt;/p>
&lt;p>&lt;strong>MIMIC-IV&lt;/strong> 发布，不再只是 ICU 数据，加上了二十万条急诊记录。从 ICU 库变成了整个急性期诊疗的数据库。&lt;/p>
&lt;p>&lt;strong>2023 年 CarpeDiem&lt;/strong> 开放，每天 44 个临床参数，模拟你每日查房看到的数据。&lt;/p>
&lt;p>&lt;strong>2024 年 NWICU&lt;/strong> 开放，十二家医院、两万八千次 ICU，跟 MIMIC-IV 数据结构对齐。&lt;/p>
&lt;p>你发现了吗？新一代数据库不再是为人类翻阅设计的，&lt;strong>它们是为机器学习设计的&lt;/strong>。数据结构标准化，跨库可以直接验证。&lt;/p>
&lt;p>同时影像领域也在爆发：&lt;strong>CheXpert&lt;/strong> 有二十万张胸片，&lt;strong>PTB-XL&lt;/strong> 有两万份心电图，&lt;strong>Kvasir&lt;/strong> 有内镜图像，&lt;strong>CAMELYON&lt;/strong> 有全切片病理。几乎每个影像方向，都有公开数据集可用了。&lt;/p>
&lt;h2 id="这条路我已经走过了">这条路，我已经走过了
&lt;/h2>&lt;p>说了这么多历史，跟你有什么关系？关系大了。&lt;/p>
&lt;p>五十年前，做研究必须有自己的数据。没有实验室，没有队列，你就什么都做不了。&lt;/p>
&lt;p>今天不一样了。几十个公共数据库免费开放，从重症到肿瘤，从流行病学到基因组学，从心电图到病理切片。&lt;/p>
&lt;p>而且数据库可以&lt;strong>组合使用&lt;/strong>。MIMIC 建模加 eICU 验证，SEER 临床加 TCGA 分子验证，NHANES 主分析加 CHNS 跨人群。这些组合策略，才是公共数据库发文的门道。&lt;/p>
&lt;table>
 &lt;thead>
 &lt;tr>
 &lt;th>你的方向&lt;/th>
 &lt;th>推荐组合&lt;/th>
 &lt;/tr>
 &lt;/thead>
 &lt;tbody>
 &lt;tr>
 &lt;td>新手&lt;/td>
 &lt;td>NHANES 或 SEER&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>重症&lt;/td>
 &lt;td>MIMIC + eICU&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>肿瘤&lt;/td>
 &lt;td>SEER + TCGA + GEO&lt;/td>
 &lt;/tr>
 &lt;/tbody>
&lt;/table>
&lt;p>所有这些库都是免费的，大部分在 PhysioNet 上申请账号签协议就能用。&lt;/p>
&lt;p>这条路，我已经走过了。&lt;/p></description></item></channel></rss>