精心策划的 150 万+ 仓库数据集,代表 2025 年代码生态系统中的质量与创新
质量优先于数量,目标优先于规模
在这个数据泛滥的时代,我们呈现一个基于深度精选的数据集。每一个文件、每一个仓库、每一个字节都经过精心挑选,旨在从开源开发的纷繁噪音中提取真正的信号。
| 子集 | 🎖️ 2 星以上 | 🌱 2 星以下(2025) |
|---|---|---|
| 范围 | 100 万顶级仓库 | 100 万 2025 年随机仓库 |
| 用途 | 已验证的质量与模式 | 新兴趋势与创新方向 |
| 价值 | 行之有效的实践 | 未来发展的可能 |
# What you WON'T find here:
🚫 Binary files # No images, executables, models
🚫 Build artifacts # No node_modules, __pycache__
🚫 Configuration noise # No .git, IDE files, lock files
🚫 License duplication # No repetitive legal text
🚫 Minified code # No compressed/obfuscated content
🚫 Empty files # No whitespace-only contentgithub-code-2025/
├── 📈 above-2-stars/
│ ├── train_000.parquet
│ ├── train_001.parquet
│ └── ...
└── 🌱 below-2-star/
├── train_000.parquet
├── train_001.parquet
└── ...{
"repo_id": "owner/repo_name", # 📍 Repository identifier
"file_path": "src/main.py", # 🗂️ Relative file path
"content": "def clean_code():", # 💎 Actual source code
"size": 1024 # 📏 File size in bytes
}from datasets import load_dataset
# Load the quality benchmark
quality_ds = load_dataset("nick007x/github-code-2025", "above-2-stars")
# Load emerging trends
emerging_ds = load_dataset("nick007x/github-code-2025", "below-2-star")
# Mix for balanced training
balanced_ds = interleave_datasets([quality_ds, emerging_ds])| 阶段 | 操作 | 目的 |
|---|---|---|
| 1 | 🎯 双群体抽样 | 平衡质量与创新性 |
| 2 | 🧹 多层过滤 | 去除噪音和二进制文件 |
| 3 | 📏 大小标准化 | 聚焦有意义的内容 |
| 4 | 🔍 内容验证 | 确保文本质量 |
| 5 | 🏷️ 元数据保留 | 维持上下文信息 |
移除的文件类型:
质量检查:
我们摒弃"数据越多越好"的教条。相反,我们提供:
本数据集是一个持续发展的项目。我们欢迎:
本数据集聚合了 Github 仓库。每个单独的仓库保留其原始版权和许可条款(通常是各种知识共享许可,如 CC BY、CC BY-NC 等)。 用户必须验证并遵守从本集合中提取和使用的任何仓库的特定许可。 本仓库中的 MIT 许可证仅适用于数据集的编译和打包代码。
重要提示:仓库内容保留其原始许可证。使用此数据时,请尊重各个项目的许可证。
本项目的构建离不开整个开源社区的支持,在此致以诚挚的感谢。该数据集中的每一个文件都凝聚了全球开发者的心血与付出。
⭐ 如果此数据集对您的研究或项目有所帮助,恳请为该仓库点亮星标!
"要让人工智能理解代码,我们首先必须明确哪些代码值得学习。"