HY-Embodied-0.5-X 是由腾讯Robotics X与混元视觉团队联合发布的增强型开源具身基础模型。该模型构建于 HY-Embodied-0.5 MoT-2B 架构之上(总参数40亿,激活参数仅20亿),专门针对现实世界机器人的核心循环——"理解、推理、行动" 进行了优化。
该模型在10项主流具身任务规划基准测试中均达到了当前最佳性能,在其中7项测试中位列边缘端领域模型榜首。与HY-Embodied-0.5相比,HY-Embodied-0.5-X更专注于现实世界机器人交互中的关键问题,在细粒度操作理解、空间推理、动作预测、风险评估、多模态指代接地及长程规划等方面进行了针对性改进,推动模型从"看见"迈向"行动"。
[2026-04-24] 🚀 发布 HY-Embodied-0.5-X,这是在HY-Embodied-0.5 MoT-2B基础上针对具身能力的增强版本,同时开放推理与训练代码。| 项目 | 要求 |
|---|---|
| 操作系统 | Linux |
| Python | 3.12 |
| CUDA | 12.6 |
| PyTorch | 2.10.0 |
| 显卡 | 显存 ≥ 16 GB 的 NVIDIA 显卡 |
安装能够原生注册HY-Embodied的特定transformers提交版本,然后安装常用的PyTorch/视觉依赖:
pip install git+https://github.com/huggingface/transformers@9293856c419762ebf98fbe2bd9440f9ce7069f1a
pip install torch==2.10.0 torchvision==0.25.0 --index-url https://download.pytorch.org/whl/cu126
pip install accelerate safetensors Pillow使用纯 transformers 进行最小化单图像推理。首次使用时,模型会从 Hub 自动下载。
import torch
from transformers import AutoModelForImageTextToText, AutoProcessor
MODEL_PATH = "tencent/HY-Embodied-0.5-X"
DEVICE = "cuda"
THINKING_MODE = True
TEMPERATURE = 0.05
processor = AutoProcessor.from_pretrained(MODEL_PATH)
model = AutoModelForImageTextToText.from_pretrained(
MODEL_PATH,
torch_dtype=torch.bfloat16,
).to(DEVICE).eval()
messages = [
{
"role": "user",
"content": [
{"type": "image", "image": "./demo.jpg"},
{"type": "text", "text": "Describe the image in detail."},
],
}
]
inputs = processor.apply_chat_template(
messages,
tokenize=True,
add_generation_prompt=True,
return_dict=True,
return_tensors="pt",
enable_thinking=THINKING_MODE,
).to(model.device)
with torch.no_grad():
generated_ids = model.generate(
**inputs,
max_new_tokens=32768,
use_cache=True,
temperature=TEMPERATURE,
do_sample=TEMPERATURE > 0,
)
output_ids = [out[len(inp):] for inp, out in zip(inputs.input_ids, generated_ids)]
print(processor.batch_decode(output_ids, skip_special_tokens=True)[0])(x, y) 或 [(x1, y1), (x2, y2)][xmin, ymin, xmax, ymax]</think>[reasoning]</RichMediaReference>superscript:[answer]superscript:。关于SFT 微调(单节点/多节点、DeepSpeed ZeRO-2、FSDP)、批量推理、多图像/视频输入、封装的 HyEmbodiedPipeline API、CLI 入口点、数据格式规范以及发布版本中使用的完整训练数据混合,请参见官方 GitHub 仓库:
👉 https://github.com/Tencent-Hunyuan/HY-Embodied-0.5-X
最小化微调代码片段(克隆仓库并配置环境后):
# Smoke-test on bundled samples
CUDA_VISIBLE_DEVICES=0 python -m hy_embodied.cli.train \
--config configs/sft/example_small_single_gpu.yaml
# 1 node × 8 GPUs with DeepSpeed ZeRO-2
bash scripts/run_sft_1node_8gpu.sh详见 docs/training.md、docs/inference.md 和 docs/data_format.md 以获取完整参考。
在涵盖规划、空间推理、具身问答、视觉指代和轨迹理解的 10 项开源基准测试 中,HY-Embodied-0.5-X 均处于顶级水平。
在内部 AI2Thor 具身规划基准测试(四个家庭场景中的 1,011 项任务)上的额外结果显示,模型在长程操作、自我感知和空间理解方面均有显著提升:
@article{tencent2026hyembodied05x,
title = {HY-Embodied-0.5-X: An Enhanced Embodied Foundation Model for Real-World Agents},
author = {Tencent Robotics X and HY Vision Team},
year = {2026}
}感谢Hugging Face社区以及所有开源贡献者。通过开源HY-Embodied-0.5-X,我们希望为具身智能社区提供一个更面向部署的基础,推动模型从“通用理解”迈向“现实世界执行”。