扫一扫分享
由腾讯研发的大语言模型,具备强大的中文创作能力,复杂语境下的逻辑推理能力,以及可靠的任务执行能力。
它基于视觉场景图预测任务(VSGP)进行细粒度的建模学习,能够获取更丰富的视觉语义信息。在交互层面,混元采用全局+局部注意力的方式,能够在有限训练成本的情况下达到最大化的学习效率。在训练方式上,混元在预训练阶段、微调阶段增加对抗训练,提升模型的泛化性能,增强该模型在下游任务上的性能。
腾讯混元在多个跨模态视频检索数据集榜单中先后取得第一名的成绩,实现了该领域的大满贯。特别是在MSR-VTT榜单上,混元将文字-视频检索精度提高到55%,领先第二名1.7%,位居行业第一。
多轮对话
具备上下文理解和长文记忆能力,流畅完成各专业领域的多轮问答
内容创作
支持文学创作、文本摘要、角色扮演能力,流畅、规范、中立、客观
逻辑推理
准确理解用户意图,基于输入数据或信息进行推理、分析
知识增强
有效解决事实性、时效性问题,提升内容生成效果
多模态
支持文字生成图像能力,输入指令即可将奇思妙想变成图画
手机预览