Qwen2-VL-72B

简介

我们兴奋地向大家展示Qwen2-VL，这是我们Qwen-VL模型的最新迭代版本，凝聚了近一年的创新成果。

[!重要] 这是Qwen2-VL-72B的基础预训练模型，未经过指令微调。

Qwen2-VL中的新特性

主要增强功能：

对多种分辨率和比例的图像的SOTA理解能力：Qwen2-VL在MathVista、DocVQA、RealWorldQA、MTVQA等视觉理解基准测试中取得了最先进的表现。
理解超过20分钟的视频：Qwen2-VL能够理解超过20分钟的视频，为高质量的基于视频的问答、对话、内容创作等提供支持。
能够操作您的手机、机器人等的智能体：凭借复杂的推理和决策能力，Qwen2-VL可以与手机、机器人等设备集成，基于视觉环境和文本指令进行自动操作。
多语言支持：为了服务全球用户，除了英语和中文，Qwen2-VL现在还支持理解图像中不同语言的文本，包括大多数欧洲语言、日语、韩语、阿拉伯语、越南语等。

模型架构更新：

原生动态分辨率：与之前不同，Qwen2-VL可以处理任意的图像分辨率，将其映射到动态数量的视觉标记中，提供更加接近人类的视觉处理体验。

多模态旋转位置编码（M-ROPE）：将位置编码分解成部分，以捕获一维文本、二维视觉和三维视频的位置信息，增强其多模态处理能力。

我们拥有2亿、7亿和72亿参数的三个模型。

此代码库包含预训练的72B Qwen2-VL模型。

更多信息，请访问我们的博客和GitHub。

要求

Qwen2-VL的代码已包含在最新版本的Hugging Face transformers中，我们建议您使用pip install -U transformers命令安装最新版，否则可能会遇到以下错误：

KeyError: 'qwen2_vl'

引用

如果您觉得我们的工作对您有帮助，欢迎引用我们的成果。

@article{Qwen2-VL,
  title={Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution}, 
  author={Peng Wang and Shuai Bai and Sinan Tan and Shijie Wang and Zhihao Fan and Jinze Bai and Keqin Chen and Xuejing Liu and Jialin Wang and Wenbin Ge and Yang Fan and Kai Dang and Mengfei Du and Xuancheng Ren and Rui Men and Dayiheng Liu and Chang Zhou and Jingren Zhou and Junyang Lin},
  journal={arXiv preprint arXiv:2409.12191},
  year={2024}
}

@article{Qwen-VL,
  title={Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond},
  author={Bai, Jinze and Bai, Shuai and Yang, Shusheng and Wang, Shijie and Tan, Sinan and Wang, Peng and Lin, Junyang and Zhou, Chang and Zhou, Jingren},
  journal={arXiv preprint arXiv:2308.12966},
  year={2023}
}

您提供的文本内容是空的，因此没有内容可供翻译。如果您有需要翻译的文本，请提供详细内容。