t
tahoebio/Tahoe-100M
数据集数据集查看器文件和版本
下载使用量0

Tahoe-100M

Tahoe-100M 是一个吉级规模的单细胞扰动图谱,包含来自 50 种癌细胞系经 1100 种小分子扰动后的超过 1 亿个转录组学图谱。该图谱通过 Vevo Therapeutics 的 Mosaic 高通量平台生成,使研究人员能够以前所未有的规模和分辨率,深入、全面地探索基因功能、细胞状态和药物反应。 此数据集旨在推动下一代细胞生物学人工智能模型的开发,在系统生物学、药物发现和精准医学等领域具有广泛的应用前景。

预印本:Tahoe-100M: A Giga-Scale Single-Cell Perturbation Atlas for Context-Dependent Gene Function and Cellular Modeling

快速开始

from datasets import load_dataset
# Load dataset in streaming mode
ds = load_dataset("tahoebio/Tahoe-100m", streaming=True, split="train")
# View the first record
next(ds.iter(1))

教程

有关数据使用、元数据表访问以及与anndata格式相互转换的示例,请参考我们的教程。

有关数据使用的详细步骤,请参见数据加载教程。

笔记本链接Colab
从huggingface加载数据集、访问元数据、映射至anndata 链接 在Colab中打开

社区资源

以下是社区创建的部分资源链接。我们非常乐意展示更多来自社区的教程,如果你基于Tahoe-100M开发了相关内容,请告知我们,我们很荣幸能展示你的成果。

资源贡献者链接
使用rapids-single-cell、scanpy和dask的Tahoe-100M分析指南SCVERSE链接
访问Arc Institute托管的Tahoe-100M h5ad文件教程Arc Institute链接

数据集特征

我们提供了该数据集的多个表格,包括 expression_data 表格中的主要数据(原始计数),以及 gene_metadata、sample_metadata、drug_metadata、cell_line_metadata、obs_metadata 表格中的各种元数据。

主要数据可通过以下方式下载:

from datasets import load_dataset
tahoe_100m_ds = load_dataset("tahoebio/Tahoe-100M", streaming=True, split="train")

将 stream=True 设置为实例化一个 IterableDataset,这样无需先下载完整数据集。有关端到端示例,请参见教程。

expression_data 表包含以下字段:

字段名称类型描述
genessequence<int64>与细胞中非零表达的每个基因对应的基因标识符(整数标记 ID)。此序列与 expressions 字段对齐。可使用 gene_metadata 表将标记 ID 映射为基因符号(gene_symbols)或 Ensembl ID(ensembl_IDs)。每行的第一个条目只是一个标记标记,应忽略(参见数据加载教程)
expressionssequence<float32>每个基因的原始计数数值,与 genes 字段对齐。第一个条目仅标记一个 CLS 标记,解析时应忽略。
drugstring处理药物名称。DMSO_TF 表示溶媒对照,可将 DMSO_TF 与 plate 结合使用以获得板匹配对照。
samplestring细胞来源样本的唯一标识符。可用于合并 sample_metadata 表中的信息。用于区分重复处理。
BARCODE_SUB_LIB_IDstring条形码和子库标识符的组合。对于数据集中的每个细胞都是唯一的。引用 obs_metadata 表时可用作索引键。
cell_line_idstring细胞来源的癌症细胞系的唯一标识符。我们使用 Cellosaurus ID,但 cell_line_metadata 表中提供了其他标识符,如 DepMap ID。
moa-finestring药物的细粒度作用机制(MOA)注释,指定受影响的生物学过程或分子靶点。源自 MedChemExpress,并使用基于 GPT 的注释进行整理。
canonical_smilesstring规范 SMILES(简化分子线性输入规范)字符串,表示扰动化合物的分子结构。
pubchem_cidstring药物的 PubChem 化合物标识符,允许与公共化学数据库交叉引用。DMSO 对照使用空字符串。查询 PubChem 前请转换为整数类型。
platestring混合细胞球体接种和处理所在的 96 孔板标识符(1–14)。

其他元数据

基因元数据

gene_metadata = load_dataset("taheobio/Tahoe-100M","gene_metadata", split="train")
列名描述
gene_symbol与每个基因对应的HGNC批准的基因符号(例如,TP53、BRCA1)。
ensembl_idEnsembl基因标识符(例如,ENSG00000000003),基于Ensembl版本109和基因组构建38。
token_id用于表示每个基因的整数标记ID。这是主数据中genes字段使用的ID。

样本元数据

sample_metadata = load_dataset("tahoebio/Tahoe-100M","sample_metadata", split="train")

sample_metadata 包含样本的汇总质量指标以及浓度的附加信息。

列名描述
sample细胞来源样本的唯一标识符。此表的唯一键。
plate样本所在96孔板的标识符(1–14)
mean_gene_count给定样本中每个细胞检测到的平均独特基因数。
mean_tscp_count样本中每个细胞检测到的平均转录本(UMI)数。
mean_mread_count每个细胞的平均reads数。
mean_pcnt_mito样本中所有细胞的总reads中映射到线粒体基因的平均百分比。
drug用于扰动样本中细胞的处理药物名称。
drugname_drugconc组合化合物名称、浓度和浓度单位的字符串(例如,[('8-Hydroxyquinoline',0.05,'uM')]),用于唯一标记每个处理条件。

药物元数据

drug_metadata =  load_dataset("tahoebio/Tahoe-100M","drug_metadata", split="train")

drug_metadata包含每个处理的额外信息。

列名描述
drug用于扰动样本中细胞的处理名称。此表的唯一键
targets代表化合物已知分子靶点的基因符号列表。靶点由GPT-4o根据化合物名称提出,然后根据MedChemExpress信息进行验证。
moa-broad化合物作用机制(MOA)的广泛分类,通常分为“抑制剂/拮抗剂”、“激活剂/激动剂”或“不明确”。GPT-4o利用化合物靶点数据和MedChemExpress的精选描述推断得出。
moa-fine化合物MOA的具体功能注释(例如,“蛋白酶体抑制剂”或“MEK抑制剂”)。这些细粒度标签选自25个MOA类别的精选列表,由GPT-4o分配并根据化合物描述进行验证。
human-approved指示化合物是否获批用于人类(“是”或“否”)。GPT-4o使用先验知识并通过clinicaltrials.gov等公共来源进行验证后提供这些标签。
clinical-trials指示化合物是否在任何已注册的临床试验中进行过评估(“是”或“否”)。使用GPT-4o确定,并通过clinicaltrials.gov搜索得到证实。
gpt-notes-approval由GPT-4o生成的上下文注释,总结化合物的批准状态、常见临床用途或细微差别(如特定制剂的批准)。
canonical_smiles化合物的SMILES(简化分子线性输入规范)表示,将其分子结构捕获为文本字符串。
pubchem_cidPubChem化合物标识符(CID),是将化合物与其在PubChem数据库中条目的唯一数字ID。

细胞系元数据

cell_line_metadata = load_dataset("tahoebio/Tahoe-100M","cell_line_metadata", split="train")

细胞系元数据表包含每个细胞系关键驱动突变的额外信息。

列名描述
cell_name癌症细胞系的标准名称(例如,A549)。
Cell_ID_DepMapDepMap 项目中细胞系的唯一标识符(例如,ACH-000681)
Cell_ID_CellosaurCellosaurus 登录号(例如,CVCL_0023)。这是主数据集中使用的 ID。
Organ细胞系的起源组织或器官(例如,肺),用于解释谱系特异性反应和生物学背景。
Driver_Gene_Symbol该细胞系中具有功能性改变的已知或推定驱动基因的 HGNC 批准符号(例如,KRAS、CDKN2A)。我们报告每个细胞系的精选驱动突变列表。
Driver_VarZyg驱动变异的合子状态(例如,Hom 表示纯合,Het 表示杂合)
Driver_VarType遗传改变的类型(例如,错义突变、移码突变、终止密码子获得、缺失)
Driver_ProtEffect_or_CdnaEffect突变的特定蛋白质或 cDNA 水平注释(例如,p.G12S、p.Q37),提供有关变异后果的精确信息。
Driver_Mech_InferDM突变的推断功能机制(例如,LoF 表示功能丧失,GoF 表示功能获得)
Driver_GeneType_DM驱动基因分类为 癌基因 或 抑癌基因

引用格式

请按以下格式引用:

@article{zhang2025tahoe,
  title={Tahoe-100M: A Giga-Scale Single-Cell Perturbation Atlas for Context-Dependent Gene Function and Cellular Modeling},
  author={Zhang, Jesse and Ubas, Airol A and de Borja, Richard and Svensson, Valentine and Thomas, Nicole and Thakar, Neha and Lai, Ian and Winters, Aidan and Khan, Umair and Jones, Matthew G and others},
  journal={bioRxiv},
  pages={2025--02},
  year={2025},
  publisher={Cold Spring Harbor Laboratory}
}