Tahoe-100M

Tahoe-100M 是一个吉级规模的单细胞扰动图谱，包含来自 50 种癌细胞系经 1100 种小分子扰动后的超过 1 亿个转录组学图谱。该图谱通过 Vevo Therapeutics 的 Mosaic 高通量平台生成，使研究人员能够以前所未有的规模和分辨率，深入、全面地探索基因功能、细胞状态和药物反应。此数据集旨在推动下一代细胞生物学人工智能模型的开发，在系统生物学、药物发现和精准医学等领域具有广泛的应用前景。

预印本：Tahoe-100M: A Giga-Scale Single-Cell Perturbation Atlas for Context-Dependent Gene Function and Cellular Modeling

快速开始

from datasets import load_dataset
# Load dataset in streaming mode
ds = load_dataset("tahoebio/Tahoe-100m", streaming=True, split="train")
# View the first record
next(ds.iter(1))

教程

有关数据使用、元数据表访问以及与anndata格式相互转换的示例，请参考我们的教程。

有关数据使用的详细步骤，请参见数据加载教程。

笔记本	链接	Colab
从huggingface加载数据集、访问元数据、映射至anndata	链接

社区资源

以下是社区创建的部分资源链接。我们非常乐意展示更多来自社区的教程，如果你基于Tahoe-100M开发了相关内容，请告知我们，我们很荣幸能展示你的成果。

资源	贡献者	链接
使用rapids-single-cell、scanpy和dask的Tahoe-100M分析指南	SCVERSE	链接
访问Arc Institute托管的Tahoe-100M h5ad文件教程	Arc Institute	链接

数据集特征

我们提供了该数据集的多个表格，包括 expression_data 表格中的主要数据（原始计数），以及 gene_metadata、sample_metadata、drug_metadata、cell_line_metadata、obs_metadata 表格中的各种元数据。

主要数据可通过以下方式下载：

from datasets import load_dataset
tahoe_100m_ds = load_dataset("tahoebio/Tahoe-100M", streaming=True, split="train")

将 stream=True 设置为实例化一个 IterableDataset，这样无需先下载完整数据集。有关端到端示例，请参见教程。

expression_data 表包含以下字段：

字段名称	类型	描述
`genes`	`sequence<int64>`	与细胞中非零表达的每个基因对应的基因标识符（整数标记 ID）。此序列与 `expressions` 字段对齐。可使用 gene_metadata 表将标记 ID 映射为基因符号（gene_symbols）或 Ensembl ID（ensembl_IDs）。每行的第一个条目只是一个标记标记，应忽略（参见数据加载教程）
`expressions`	`sequence<float32>`	每个基因的原始计数数值，与 `genes` 字段对齐。第一个条目仅标记一个 CLS 标记，解析时应忽略。
`drug`	`string`	处理药物名称。DMSO_TF 表示溶媒对照，可将 DMSO_TF 与 plate 结合使用以获得板匹配对照。
`sample`	`string`	细胞来源样本的唯一标识符。可用于合并 `sample_metadata` 表中的信息。用于区分重复处理。
`BARCODE_SUB_LIB_ID`	`string`	条形码和子库标识符的组合。对于数据集中的每个细胞都是唯一的。引用 `obs_metadata` 表时可用作索引键。
`cell_line_id`	`string`	细胞来源的癌症细胞系的唯一标识符。我们使用 Cellosaurus ID，但 `cell_line_metadata` 表中提供了其他标识符，如 DepMap ID。
`moa-fine`	`string`	药物的细粒度作用机制（MOA）注释，指定受影响的生物学过程或分子靶点。源自 MedChemExpress，并使用基于 GPT 的注释进行整理。
`canonical_smiles`	`string`	规范 SMILES（简化分子线性输入规范）字符串，表示扰动化合物的分子结构。
`pubchem_cid`	`string`	药物的 PubChem 化合物标识符，允许与公共化学数据库交叉引用。DMSO 对照使用空字符串。查询 PubChem 前请转换为整数类型。
`plate`	`string`	混合细胞球体接种和处理所在的 96 孔板标识符（1–14）。

其他元数据

基因元数据

gene_metadata = load_dataset("taheobio/Tahoe-100M","gene_metadata", split="train")

列名	描述
`gene_symbol`	与每个基因对应的HGNC批准的基因符号（例如，TP53、BRCA1）。
`ensembl_id`	Ensembl基因标识符（例如，ENSG00000000003），基于Ensembl版本109和基因组构建38。
`token_id`	用于表示每个基因的整数标记ID。这是主数据中`genes`字段使用的ID。

样本元数据

sample_metadata = load_dataset("tahoebio/Tahoe-100M","sample_metadata", split="train")

sample_metadata 包含样本的汇总质量指标以及浓度的附加信息。

列名	描述
`sample`	细胞来源样本的唯一标识符。此表的唯一键。
`plate`	样本所在96孔板的标识符（1–14）
`mean_gene_count`	给定样本中每个细胞检测到的平均独特基因数。
`mean_tscp_count`	样本中每个细胞检测到的平均转录本（UMI）数。
`mean_mread_count`	每个细胞的平均reads数。
`mean_pcnt_mito`	样本中所有细胞的总reads中映射到线粒体基因的平均百分比。
`drug`	用于扰动样本中细胞的处理药物名称。
`drugname_drugconc`	组合化合物名称、浓度和浓度单位的字符串（例如，`[('8-Hydroxyquinoline',0.05,'uM')]`），用于唯一标记每个处理条件。

药物元数据

drug_metadata =  load_dataset("tahoebio/Tahoe-100M","drug_metadata", split="train")

drug_metadata包含每个处理的额外信息。

列名	描述
`drug`	用于扰动样本中细胞的处理名称。此表的唯一键
`targets`	代表化合物已知分子靶点的基因符号列表。靶点由GPT-4o根据化合物名称提出，然后根据MedChemExpress信息进行验证。
`moa-broad`	化合物作用机制（MOA）的广泛分类，通常分为“抑制剂/拮抗剂”、“激活剂/激动剂”或“不明确”。GPT-4o利用化合物靶点数据和MedChemExpress的精选描述推断得出。
`moa-fine`	化合物MOA的具体功能注释（例如，“蛋白酶体抑制剂”或“MEK抑制剂”）。这些细粒度标签选自25个MOA类别的精选列表，由GPT-4o分配并根据化合物描述进行验证。
`human-approved`	指示化合物是否获批用于人类（“是”或“否”）。GPT-4o使用先验知识并通过clinicaltrials.gov等公共来源进行验证后提供这些标签。
`clinical-trials`	指示化合物是否在任何已注册的临床试验中进行过评估（“是”或“否”）。使用GPT-4o确定，并通过clinicaltrials.gov搜索得到证实。
`gpt-notes-approval`	由GPT-4o生成的上下文注释，总结化合物的批准状态、常见临床用途或细微差别（如特定制剂的批准）。
`canonical_smiles`	化合物的SMILES（简化分子线性输入规范）表示，将其分子结构捕获为文本字符串。
`pubchem_cid`	PubChem化合物标识符（CID），是将化合物与其在PubChem数据库中条目的唯一数字ID。

细胞系元数据

cell_line_metadata = load_dataset("tahoebio/Tahoe-100M","cell_line_metadata", split="train")

细胞系元数据表包含每个细胞系关键驱动突变的额外信息。

列名	描述
`cell_name`	癌症细胞系的标准名称（例如，A549）。
`Cell_ID_DepMap`	DepMap 项目中细胞系的唯一标识符（例如，ACH-000681）
`Cell_ID_Cellosaur`	Cellosaurus 登录号（例如，CVCL_0023）。这是主数据集中使用的 ID。
`Organ`	细胞系的起源组织或器官（例如，肺），用于解释谱系特异性反应和生物学背景。
`Driver_Gene_Symbol`	该细胞系中具有功能性改变的已知或推定驱动基因的 HGNC 批准符号（例如，KRAS、CDKN2A）。我们报告每个细胞系的精选驱动突变列表。
`Driver_VarZyg`	驱动变异的合子状态（例如，Hom 表示纯合，Het 表示杂合）
`Driver_VarType`	遗传改变的类型（例如，错义突变、移码突变、终止密码子获得、缺失）
`Driver_ProtEffect_or_CdnaEffect`	突变的特定蛋白质或 cDNA 水平注释（例如，p.G12S、p.Q37），提供有关变异后果的精确信息。
`Driver_Mech_InferDM`	突变的推断功能机制（例如，LoF 表示功能丧失，GoF 表示功能获得）
`Driver_GeneType_DM`	驱动基因分类为癌基因或抑癌基因

引用格式

请按以下格式引用：

@article{zhang2025tahoe,
  title={Tahoe-100M: A Giga-Scale Single-Cell Perturbation Atlas for Context-Dependent Gene Function and Cellular Modeling},
  author={Zhang, Jesse and Ubas, Airol A and de Borja, Richard and Svensson, Valentine and Thomas, Nicole and Thakar, Neha and Lai, Ian and Winters, Aidan and Khan, Umair and Jones, Matthew G and others},
  journal={bioRxiv},
  pages={2025--02},
  year={2025},
  publisher={Cold Spring Harbor Laboratory}
}