JoyAI-VL-Interaction

首个开源、视觉驱动的实时交互模型——它能实时监控视频流，并自主决定何时发言、保持沉默或委托任务。

📄 论文 · 🌐 项目页面与演示 · 💻 GitHub · 🤗 论文页面

概述

当今大多数大模型都是回合制的：只有在你提问时它们才会回答。但现实世界中的许多关键时刻并不会等待提问——监控画面中突发火灾、有人摔倒、直播中商品快速闪过。一旦错过，这些瞬间便不复存在。

JoyAI-VL-Interaction 正是为这些时刻而生。它是一个80亿参数规模、视觉优先的交互模型，能够持续监控实时视频流，并每秒自主决策采取以下三种行动之一：

发言——当有值得回应的内容时进行反馈
保持沉默——当无需回应时继续监控（这是一个经过训练的一等行动）
委托——将复杂子任务交给后台模型/智能体，继续监控，并在结果返回时将其整合

何时行动的决策是在模型内部学习的（基于每秒时间对齐的数据和强化学习），而非通过外部回合检测器或轮询循环附加实现。视觉是首要驱动因素；语音（ASR/TTS）被视为可插拔的输入/输出。

据我们所知，这是首个开源的视觉驱动交互模型，并随附其训练方法、数据以及完整的可部署系统。

vLLM 使用方法

vLLM-Omni 为 JoyAI-VL-Interaction 提供零日支持！该模型是一个标准的 Qwen3-VL 视觉语言模型，可通过简单的 vllm serve 命令部署；vLLM-Omni 在其基础上添加了实时交互层——每秒发言/沉默/委托的编排、三级摘要记忆，以及可插拔的 ASR/TTS/委托功能。有关安装和完整设置，请参见 vLLM-Omni 使用指南。

在线服务

# git clone https://github.com/vllm-project/vllm-omni.git

# 1. Serve the model (plain `vllm serve`, NOT --omni — it is vanilla Qwen3-VL)
vllm serve jdopensource/JoyAI-VL-Interaction-Preview \
  --served-model-name JoyAI-VL-Interaction-Preview --port 8061 \
  --max-model-len 131072 --enable-prefix-caching --limit-mm-per-prompt '{"image":256,"video":1}'

# 2. Start the interaction orchestrator (OpenAI-compatible, :8070)
python -m vllm_omni.experimental.fullduplex.joyvl.serving.server --port 8070 \
  --main-backend-url http://127.0.0.1:8061/v1 --main-model JoyAI-VL-Interaction-Preview

如需完整的浏览器演示（包括实时网络摄像头/RTSP 输入、语音（ASR/TTS）以及每帧决策流），请在编排器前运行 JD 的官方 WebUI（services/webui）；有关步骤，请参见 vLLM-Omni 指南。

概述

发言——当有值得回应的内容时进行反馈

保持沉默——当无需回应时继续监控（这是一个经过训练的一等行动）

委托——将复杂子任务交给后台模型/智能体，继续监控，并在结果返回时将其整合

据我们所知，这是首个开源的视觉驱动交互模型，并随附其训练方法、数据以及完整的可部署系统。

vLLM 使用方法

在线服务

# git clone https://github.com/vllm-project/vllm-omni.git

# 1. Serve the model (plain `vllm serve`, NOT --omni — it is vanilla Qwen3-VL)
vllm serve jdopensource/JoyAI-VL-Interaction-Preview \
  --served-model-name JoyAI-VL-Interaction-Preview --port 8061 \
  --max-model-len 131072 --enable-prefix-caching --limit-mm-per-prompt '{"image":256,"video":1}'

# 2. Start the interaction orchestrator (OpenAI-compatible, :8070)
python -m vllm_omni.experimental.fullduplex.joyvl.serving.server --port 8070 \
  --main-backend-url http://127.0.0.1:8061/v1 --main-model JoyAI-VL-Interaction-Preview