我们兴奋地向大家展示Qwen2-VL,这是我们Qwen-VL模型的最新迭代版本,凝聚了近一年的创新成果。
[!重要] 这是Qwen2-VL-72B的基础预训练模型,未经过指令微调。
我们拥有2亿、7亿和72亿参数的三个模型。
此代码库包含预训练的72B Qwen2-VL模型。
Qwen2-VL的代码已包含在最新版本的Hugging Face transformers中,我们建议您使用pip install -U transformers命令安装最新版,否则可能会遇到以下错误:
KeyError: 'qwen2_vl'如果您觉得我们的工作对您有帮助,欢迎引用我们的成果。
@article{Qwen2-VL,
title={Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution},
author={Peng Wang and Shuai Bai and Sinan Tan and Shijie Wang and Zhihao Fan and Jinze Bai and Keqin Chen and Xuejing Liu and Jialin Wang and Wenbin Ge and Yang Fan and Kai Dang and Mengfei Du and Xuancheng Ren and Rui Men and Dayiheng Liu and Chang Zhou and Jingren Zhou and Junyang Lin},
journal={arXiv preprint arXiv:2409.12191},
year={2024}
}
@article{Qwen-VL,
title={Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond},
author={Bai, Jinze and Bai, Shuai and Yang, Shusheng and Wang, Shijie and Tan, Sinan and Wang, Peng and Lin, Junyang and Zhou, Chang and Zhou, Jingren},
journal={arXiv preprint arXiv:2308.12966},
year={2023}
}您提供的文本内容是空的,因此没有内容可供翻译。如果您有需要翻译的文本,请提供详细内容。