首个开源、视觉驱动的实时交互模型——它能实时监控视频流,并自主决定何时发言、保持沉默或委托任务。
📄 论文 · 🌐 项目页面与演示 · 💻 GitHub · 🤗 论文页面
当今大多数大模型都是回合制的:只有在你提问时它们才会回答。但现实世界中的许多关键时刻并不会等待提问——监控画面中突发火灾、有人摔倒、直播中商品快速闪过。一旦错过,这些瞬间便不复存在。
JoyAI-VL-Interaction 正是为这些时刻而生。它是一个80亿参数规模、视觉优先的交互模型,能够持续监控实时视频流,并每秒自主决策采取以下三种行动之一:
何时行动的决策是在模型内部学习的(基于每秒时间对齐的数据和强化学习),而非通过外部回合检测器或轮询循环附加实现。视觉是首要驱动因素;语音(ASR/TTS)被视为可插拔的输入/输出。
据我们所知,这是首个开源的视觉驱动交互模型,并随附其训练方法、数据以及完整的可部署系统。
vLLM-Omni 为 JoyAI-VL-Interaction 提供零日支持!该模型是一个标准的 Qwen3-VL 视觉语言模型,可通过简单的 vllm serve 命令部署;vLLM-Omni 在其基础上添加了实时交互层——每秒发言/沉默/委托的编排、三级摘要记忆,以及可插拔的 ASR/TTS/委托功能。有关安装和完整设置,请参见 vLLM-Omni 使用指南。
# git clone https://github.com/vllm-project/vllm-omni.git
# 1. Serve the model (plain `vllm serve`, NOT --omni — it is vanilla Qwen3-VL)
vllm serve jdopensource/JoyAI-VL-Interaction-Preview \
--served-model-name JoyAI-VL-Interaction-Preview --port 8061 \
--max-model-len 131072 --enable-prefix-caching --limit-mm-per-prompt '{"image":256,"video":1}'
# 2. Start the interaction orchestrator (OpenAI-compatible, :8070)
python -m vllm_omni.experimental.fullduplex.joyvl.serving.server --port 8070 \
--main-backend-url http://127.0.0.1:8061/v1 --main-model JoyAI-VL-Interaction-Preview如需完整的浏览器演示(包括实时网络摄像头/RTSP 输入、语音(ASR/TTS)以及每帧决策流),请在编排器前运行 JD 的官方 WebUI(services/webui);有关步骤,请参见 vLLM-Omni 指南。