JD OpenSource/JoyAI-VL-Interaction-Preview
模型介绍文件和版本Pull Requests讨论分析
下载使用量0

JoyAI-VL-Interaction

首个开源、视觉驱动的实时交互模型——它能实时监控视频流,并自主决定何时发言、保持沉默或委托任务。

📄 论文 · 🌐 项目页面与演示 · 💻 GitHub · 🤗 论文页面


概述

当今大多数大模型都是回合制的:只有在你提问时它们才会回答。但现实世界中的许多关键时刻并不会等待提问——监控画面中突发火灾、有人摔倒、直播中商品快速闪过。一旦错过,这些瞬间便不复存在。

JoyAI-VL-Interaction 正是为这些时刻而生。它是一个80亿参数规模、视觉优先的交互模型,能够持续监控实时视频流,并每秒自主决策采取以下三种行动之一:

  • 发言——当有值得回应的内容时进行反馈
  • 保持沉默——当无需回应时继续监控(这是一个经过训练的一等行动)
  • 委托——将复杂子任务交给后台模型/智能体,继续监控,并在结果返回时将其整合

何时行动的决策是在模型内部学习的(基于每秒时间对齐的数据和强化学习),而非通过外部回合检测器或轮询循环附加实现。视觉是首要驱动因素;语音(ASR/TTS)被视为可插拔的输入/输出。

据我们所知,这是首个开源的视觉驱动交互模型,并随附其训练方法、数据以及完整的可部署系统。


vLLM 使用方法

vLLM-Omni 为 JoyAI-VL-Interaction 提供零日支持!该模型是一个标准的 Qwen3-VL 视觉语言模型,可通过简单的 vllm serve 命令部署;vLLM-Omni 在其基础上添加了实时交互层——每秒发言/沉默/委托的编排、三级摘要记忆,以及可插拔的 ASR/TTS/委托功能。有关安装和完整设置,请参见 vLLM-Omni 使用指南。

在线服务

# git clone https://github.com/vllm-project/vllm-omni.git

# 1. Serve the model (plain `vllm serve`, NOT --omni — it is vanilla Qwen3-VL)
vllm serve jdopensource/JoyAI-VL-Interaction-Preview \
  --served-model-name JoyAI-VL-Interaction-Preview --port 8061 \
  --max-model-len 131072 --enable-prefix-caching --limit-mm-per-prompt '{"image":256,"video":1}'

# 2. Start the interaction orchestrator (OpenAI-compatible, :8070)
python -m vllm_omni.experimental.fullduplex.joyvl.serving.server --port 8070 \
  --main-backend-url http://127.0.0.1:8061/v1 --main-model JoyAI-VL-Interaction-Preview

如需完整的浏览器演示(包括实时网络摄像头/RTSP 输入、语音(ASR/TTS)以及每帧决策流),请在编排器前运行 JD 的官方 WebUI(services/webui);有关步骤,请参见 vLLM-Omni 指南。