合并请求 - GPT-OSS-20B-BF16-based-vllm-ascend:针对GPT-OSS模型在昇腾NPU上的推理部署,通过融合算子适配、MoE断点补齐及图模式优化,显著降低时延并提升TPS,精度误差在可接受范围。【此简介由AI生成】 - AtomGit AI社区