选择适合你的方案,畅享昇腾编码模型能力,每 5 小时滚动窗口计量·AtomCode在线体验
今日还剩367个名额,明天可继续领取
支持模型
比 Lite 版本 5 倍的可用量
昇腾模型体验
DeepSeek-R1
探索新一代推理模型,DeepSeek-R1系列以大规模强化学习为基础,实现自主推理,表现卓越,推理行为强大且独特。开源共享,助力研究社区深入探索LLM推理能力,推动行业发展。【此简介由AI生成】
DeepSeek-V3
DeepSeek-V3:强大开源的混合专家模型,671B总参数,激活37B,采用多头潜在注意力机制与DeepSeekMoE架构,训练高效、成本低,性能卓越,开源界表现领先,逼近闭源模型水平,推理加速,推理稳定,适用于多种硬件和开源软件。【此简介由AI生成】。
DeepSeek-V3.2-Exp
DeepSeek-V3.2-Exp是DeepSeek推出的实验性模型,基于V3.1-Terminus架构,创新引入DeepSeek Sparse Attention稀疏注意力机制,在保持模型输出质量的同时,大幅提升长文本场景下的训练与推理效率。该模型在MMLU-Pro、GPQA-Diamond等多领域公开基准测试中表现与V3.1-Terminus相当,支持HuggingFace、SGLang、vLLM等多种本地运行方式,开源内核设计便于研究,采用MIT许可证。【此简介由AI生成】
Qwen-Image
我们隆重推出 Qwen-Image,这是通义千问系列中的图像生成基础模型,在复杂文本渲染和精准图像编辑方面取得重大突破。
GLM-5.2
智谱开源 GLM-5.2,这是针对长文本任务的最新旗舰模型。相较于前代产品 GLM-5.1,它在长文本任务处理能力上实现了显著飞跃,并且首次在稳定的 100 万 token 上下文中提供这一能力。
Qwen3-235B-A22B-Instruct-2507
Qwen3-235B-A22B-Instruct-2507是一款强大的开源大语言模型,拥有2350亿参数,其中220亿参数处于激活状态。它在指令遵循、逻辑推理、文本理解、数学、科学、编程和工具使用等方面表现出色,尤其在长尾知识覆盖和多语言任务上显著提升。模型支持256K长上下文理解,生成内容更符合用户偏好,适用于主观和开放式任务。在多项基准测试中,它在知识、推理、编码、对齐和代理任务上超越同类模型。部署灵活,支持多种框架如Hugging Face transformers、vLLM和SGLang,适用于本地和云端应用。通过Qwen-Agent工具,能充分发挥其代理能力,简化复杂任务处理。最佳实践推荐使用Temperature=0.7、TopP=0.8等参数设置,以获得最优性能。
Qwen3-32B
Qwen3-32B具有以下特点: 类型:因果语言模型 训练阶段:训练前和训练后 参数数量:32.8B 参数数量(非嵌入):31.2B 层数:64 注意力头数量(GQA):Q 为 64 个,KV 为 8 个 上下文长度:原生长度为 32,768,使用 YaRN 后长度为 131,072 个标记
Wan2.2-I2V-A14B
Wan2.2是开源视频生成模型的重大升级,采用混合专家架构提升性能,在相同计算成本下实现更高容量。模型融入精细美学数据,支持精准控制光影、构图等电影级风格,生成更具艺术感的视频。相比前代,训练数据量增加65.6%图像和83.2%视频,显著提升运动、语义和美学表现,在开源与闭源模型中均属顶尖。特别推出5B参数的高效混合模型,支持720P@24fps的文本/图像转视频,可在4090等消费级显卡运行,是目前最快的720P模型之一。专为图像转视频设计的I2V-A14B模型采用MoE架构,减少不自然镜头运动,支持480P/720P分辨率,为多样化风格场景提供稳定合成效果。【此简介由AI生成】
DeepSeek-V3.1-Terminus
DeepSeek-V3.1-Terminus是V3的更新版,修复语言问题,并优化了代码与搜索智能体性能。
Qwen3.5-35B-A3B
融合视觉语言能力,具备高效混合架构与稀疏专家系统,支持百万级上下文,适用于推理、编码、视觉理解等多场景,助力开发者与企业应用。
Qwen3-30B-A3B
Qwen3-30B-A3B具有以下特点: 类型:因果语言模型 训练阶段:预训练和后训练 参数数量:总计 305 亿,其中已激活 33 亿 参数数量(非嵌入):29.9B 层数:48 注意力头数量(GQA):Q 为 32 个,KV 为 4 个 专家人数:128 已激活专家数量:8 上下文长度:原生长度为 32,768,使用 YaRN 后长度为 131,072 个标记
Qwen3-235B-A22B
Qwen3-235B-A22B 具有以下特点: 类型:因果语言模型 训练阶段:预训练与后训练 参数数量:总计 235B,激活 22B 参数数量(非嵌入):234B 层数:94 注意力头数(GQA):Q 为 64,KV 为 4 专家数:128 激活的专家数:8 上下文长度:本地为 32,768,使用 YaRN 可处理 131,072 个标记。
bge-m3
BGE-M3,一款全能型多语言嵌入模型,具备三大检索功能:稠密检索、稀疏检索和多元向量检索,覆盖超百种语言,可处理不同粒度输入,从短句到长达8192个token的文档。通用预训练支持,统一微调示例,适用于多场景文本相似度计算,性能卓越,潜力无限。
Wan2.2-T2V-A14B
基于Mixture-of-Experts架构,支持文本生成5秒480P/720P视频。具备电影级美学效果与复杂动作生成能力,在Wan-Bench 2.0基准测试中超越主流商业模型。
DeepSeek-V3.2
融合DeepSeek稀疏注意力机制,具备高效计算与卓越推理能力,获2025 IMO和IOI金牌,支持工具调用与智能体任务,优化长上下文场景表现。
Qwen-Image-Edit-2509
Qwen-Image-Edit九月迭代版,支持1-3张图编辑,提升人像身份、产品特征、文本内容及样式一致性,原生集成ControlNet深度/边缘/关键点控制。
Qwen3-30B-A3B-Instruct-2507
Qwen3系列更新版,提升指令遵循、逻辑推理、多语言长尾知识覆盖,优化主观任务用户偏好对齐,支持256K长上下文理解,非思考模式输出。
Wan2.2-I2V-A14B-Diffusers
采用MoE架构,提升视频生成稳定性,减少不自然镜头运动,支持480P和720P分辨率,适用于多样化风格场景,兼顾工业与学术需求。
Qwen3-30B-A3B-Thinking-2507
显著提升逻辑推理、数学、科学、编码等复杂任务表现,增强工具使用与文本生成能力,优化256K长上下文理解,适用于高难度推理场景。
Wan2.2-T2V-A14B-Diffusers
采用MoE架构提升模型容量与效率,支持480P和720P分辨率5秒视频生成。融合电影级美学数据,强化复杂动作生成能力,在Wan-Bench 2.0基准超越主流商业模型。