Tahoe-100M 是一个吉级规模的单细胞扰动图谱,包含来自 50 种癌细胞系经 1100 种小分子扰动后的超过 1 亿个转录组学图谱。该图谱通过 Vevo Therapeutics 的 Mosaic 高通量平台生成,使研究人员能够以前所未有的规模和分辨率,深入、全面地探索基因功能、细胞状态和药物反应。 此数据集旨在推动下一代细胞生物学人工智能模型的开发,在系统生物学、药物发现和精准医学等领域具有广泛的应用前景。
from datasets import load_dataset
# Load dataset in streaming mode
ds = load_dataset("tahoebio/Tahoe-100m", streaming=True, split="train")
# View the first record
next(ds.iter(1))有关数据使用、元数据表访问以及与anndata格式相互转换的示例,请参考我们的教程。
有关数据使用的详细步骤,请参见数据加载教程。
| 笔记本 | 链接 | Colab |
|---|---|---|
| 从huggingface加载数据集、访问元数据、映射至anndata | 链接 |
|
以下是社区创建的部分资源链接。我们非常乐意展示更多来自社区的教程,如果你基于Tahoe-100M开发了相关内容,请告知我们,我们很荣幸能展示你的成果。
| 资源 | 贡献者 | 链接 |
|---|---|---|
| 使用rapids-single-cell、scanpy和dask的Tahoe-100M分析指南 | SCVERSE | 链接 |
| 访问Arc Institute托管的Tahoe-100M h5ad文件教程 | Arc Institute | 链接 |
我们提供了该数据集的多个表格,包括 expression_data 表格中的主要数据(原始计数),以及 gene_metadata、sample_metadata、drug_metadata、cell_line_metadata、obs_metadata 表格中的各种元数据。
主要数据可通过以下方式下载:
from datasets import load_dataset
tahoe_100m_ds = load_dataset("tahoebio/Tahoe-100M", streaming=True, split="train")将 stream=True 设置为实例化一个 IterableDataset,这样无需先下载完整数据集。有关端到端示例,请参见教程。
expression_data 表包含以下字段:
| 字段名称 | 类型 | 描述 |
|---|---|---|
genes | sequence<int64> | 与细胞中非零表达的每个基因对应的基因标识符(整数标记 ID)。此序列与 expressions 字段对齐。可使用 gene_metadata 表将标记 ID 映射为基因符号(gene_symbols)或 Ensembl ID(ensembl_IDs)。每行的第一个条目只是一个标记标记,应忽略(参见数据加载教程) |
expressions | sequence<float32> | 每个基因的原始计数数值,与 genes 字段对齐。第一个条目仅标记一个 CLS 标记,解析时应忽略。 |
drug | string | 处理药物名称。DMSO_TF 表示溶媒对照,可将 DMSO_TF 与 plate 结合使用以获得板匹配对照。 |
sample | string | 细胞来源样本的唯一标识符。可用于合并 sample_metadata 表中的信息。用于区分重复处理。 |
BARCODE_SUB_LIB_ID | string | 条形码和子库标识符的组合。对于数据集中的每个细胞都是唯一的。引用 obs_metadata 表时可用作索引键。 |
cell_line_id | string | 细胞来源的癌症细胞系的唯一标识符。我们使用 Cellosaurus ID,但 cell_line_metadata 表中提供了其他标识符,如 DepMap ID。 |
moa-fine | string | 药物的细粒度作用机制(MOA)注释,指定受影响的生物学过程或分子靶点。源自 MedChemExpress,并使用基于 GPT 的注释进行整理。 |
canonical_smiles | string | 规范 SMILES(简化分子线性输入规范)字符串,表示扰动化合物的分子结构。 |
pubchem_cid | string | 药物的 PubChem 化合物标识符,允许与公共化学数据库交叉引用。DMSO 对照使用空字符串。查询 PubChem 前请转换为整数类型。 |
plate | string | 混合细胞球体接种和处理所在的 96 孔板标识符(1–14)。 |
gene_metadata = load_dataset("taheobio/Tahoe-100M","gene_metadata", split="train")| 列名 | 描述 |
|---|---|
gene_symbol | 与每个基因对应的HGNC批准的基因符号(例如,TP53、BRCA1)。 |
ensembl_id | Ensembl基因标识符(例如,ENSG00000000003),基于Ensembl版本109和基因组构建38。 |
token_id | 用于表示每个基因的整数标记ID。这是主数据中genes字段使用的ID。 |
sample_metadata = load_dataset("tahoebio/Tahoe-100M","sample_metadata", split="train")sample_metadata 包含样本的汇总质量指标以及浓度的附加信息。
| 列名 | 描述 |
|---|---|
sample | 细胞来源样本的唯一标识符。此表的唯一键。 |
plate | 样本所在96孔板的标识符(1–14) |
mean_gene_count | 给定样本中每个细胞检测到的平均独特基因数。 |
mean_tscp_count | 样本中每个细胞检测到的平均转录本(UMI)数。 |
mean_mread_count | 每个细胞的平均reads数。 |
mean_pcnt_mito | 样本中所有细胞的总reads中映射到线粒体基因的平均百分比。 |
drug | 用于扰动样本中细胞的处理药物名称。 |
drugname_drugconc | 组合化合物名称、浓度和浓度单位的字符串(例如,[('8-Hydroxyquinoline',0.05,'uM')]),用于唯一标记每个处理条件。 |
drug_metadata = load_dataset("tahoebio/Tahoe-100M","drug_metadata", split="train")drug_metadata包含每个处理的额外信息。
| 列名 | 描述 |
|---|---|
drug | 用于扰动样本中细胞的处理名称。此表的唯一键 |
targets | 代表化合物已知分子靶点的基因符号列表。靶点由GPT-4o根据化合物名称提出,然后根据MedChemExpress信息进行验证。 |
moa-broad | 化合物作用机制(MOA)的广泛分类,通常分为“抑制剂/拮抗剂”、“激活剂/激动剂”或“不明确”。GPT-4o利用化合物靶点数据和MedChemExpress的精选描述推断得出。 |
moa-fine | 化合物MOA的具体功能注释(例如,“蛋白酶体抑制剂”或“MEK抑制剂”)。这些细粒度标签选自25个MOA类别的精选列表,由GPT-4o分配并根据化合物描述进行验证。 |
human-approved | 指示化合物是否获批用于人类(“是”或“否”)。GPT-4o使用先验知识并通过clinicaltrials.gov等公共来源进行验证后提供这些标签。 |
clinical-trials | 指示化合物是否在任何已注册的临床试验中进行过评估(“是”或“否”)。使用GPT-4o确定,并通过clinicaltrials.gov搜索得到证实。 |
gpt-notes-approval | 由GPT-4o生成的上下文注释,总结化合物的批准状态、常见临床用途或细微差别(如特定制剂的批准)。 |
canonical_smiles | 化合物的SMILES(简化分子线性输入规范)表示,将其分子结构捕获为文本字符串。 |
pubchem_cid | PubChem化合物标识符(CID),是将化合物与其在PubChem数据库中条目的唯一数字ID。 |
cell_line_metadata = load_dataset("tahoebio/Tahoe-100M","cell_line_metadata", split="train")细胞系元数据表包含每个细胞系关键驱动突变的额外信息。
| 列名 | 描述 |
|---|---|
cell_name | 癌症细胞系的标准名称(例如,A549)。 |
Cell_ID_DepMap | DepMap 项目中细胞系的唯一标识符(例如,ACH-000681) |
Cell_ID_Cellosaur | Cellosaurus 登录号(例如,CVCL_0023)。这是主数据集中使用的 ID。 |
Organ | 细胞系的起源组织或器官(例如,肺),用于解释谱系特异性反应和生物学背景。 |
Driver_Gene_Symbol | 该细胞系中具有功能性改变的已知或推定驱动基因的 HGNC 批准符号(例如,KRAS、CDKN2A)。我们报告每个细胞系的精选驱动突变列表。 |
Driver_VarZyg | 驱动变异的合子状态(例如,Hom 表示纯合,Het 表示杂合) |
Driver_VarType | 遗传改变的类型(例如,错义突变、移码突变、终止密码子获得、缺失) |
Driver_ProtEffect_or_CdnaEffect | 突变的特定蛋白质或 cDNA 水平注释(例如,p.G12S、p.Q37),提供有关变异后果的精确信息。 |
Driver_Mech_InferDM | 突变的推断功能机制(例如,LoF 表示功能丧失,GoF 表示功能获得) |
Driver_GeneType_DM | 驱动基因分类为 癌基因 或 抑癌基因 |
请按以下格式引用:
@article{zhang2025tahoe,
title={Tahoe-100M: A Giga-Scale Single-Cell Perturbation Atlas for Context-Dependent Gene Function and Cellular Modeling},
author={Zhang, Jesse and Ubas, Airol A and de Borja, Richard and Svensson, Valentine and Thomas, Nicole and Thakar, Neha and Lai, Ian and Winters, Aidan and Khan, Umair and Jones, Matthew G and others},
journal={bioRxiv},
pages={2025--02},
year={2025},
publisher={Cold Spring Harbor Laboratory}
}