基于大学知识的多模态LLM测评基准MMMU发布

梧州云主机,达州云电脑_

《专家级人工智能的大规模多学科多模态理解和推理基准》是一个新的基准，旨在评估多模态模型在大规模多学科任务上的专家级理解能力。该基准包括来自大学考试、测验和教科书的11500个精心收集的多模态问题，涵盖了艺术与设计、商业、科学、健康与医学、人文与社会科学以及技术与工程等六个核心学科。与现有的基准不同，该基准侧重于具有领域特定知识的高级感知和推理，挑战模型执行类似于专家面临的任务。评估结果显示，即使是先进的GPT-4V模型的准确率也只有56%，还有很大的改进空间。

项目介绍：

https://mmmu-benchmark.github.io/

本文地址：https://www.163264.com/5654

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

基于大学知识的多模态LLM测评基准MMMU发布

文章展示

什么是SD-WAN？SD-WAN有什么价值

国内SD-WAN厂商盘点及优势分析

亚马逊跨境电商传统营销模式有哪些

灵活住宿，无忧上网：随身WiFi助力租房打工族和住宿大学生

TikTok店铺跨境卖家必看：TikTok选品万能策略分享！

基于大学知识的多模态LLM测评基准MMMU发布

相关文章

文章展示

标签云