元象首个多模态大模型 XVERSE-V 开源,刷新权威大模型榜单,支持任意宽高比输入

访客9个月前AI生活740

元象首个多模态大模型 XVERSE-V 开源,刷新权威大模型榜单,支持任意宽高比输入

人类获取的信息83%来自视觉,图文多模态大模型能感知更丰富和精确的真实世界信息,构建更全面的认知智能,从而向AGI(通用人工智能)迈出更大步伐。

元象今日发布多模态大模型 XVERSE-V ,支持任意宽高比图像输入,在主流评测中效果领先。该模型全开源,无条件免费商用 ,持续推动海量中小企业、研究者和开发者的研发和应用创新。

XVERSE-V 性能优异,在多项权威多模态评测中超过零一万物Yi-VL-34B、面壁智能OmniLMM-12B及深度求索DeepSeek-VL-7B等开源模型,在综合能力测评MMBench中超过了谷歌GeminiProVision、阿里Qwen-VL-Plus和Claude-3V Sonnet等知名闭源模型。

元象首个多模态大模型 XVERSE-V 开源,刷新权威大模型榜单,支持任意宽高比输入
图. 多模态大模型综合评测
1
融合整体和局部的高清图像表示

传统的多模态模型的图像表示只有整体,XVERSE-V  创新性地采用了融合整体和局部的策略,支持输入任意宽高比的图像。兼顾全局的概览信息和局部的细节信息,能够识别和分析图像中的细微特征,看的更清楚,理解的更准确。

元象首个多模态大模型 XVERSE-V 开源,刷新权威大模型榜单,支持任意宽高比输入

元象首个多模态大模型 XVERSE-V 开源,刷新权威大模型榜单,支持任意宽高比输入

注:Concate* 表示按列进行拼接

这样的处理方式使模型可以应用于广泛的领域,包括全景图识别、卫星图像、古文物扫描分析等。

示例- 高清全景图识别 、图片细节文字识别

元象首个多模态大模型 XVERSE-V 开源,刷新权威大模型榜单,支持任意宽高比输入

元象首个多模态大模型 XVERSE-V 开源,刷新权威大模型榜单,支持任意宽高比输入

免费下载大模型

  • Hugging Face:https://huggingface.co/xverse/XVERSE-V-13B

  • ModelScope魔搭:https://modelscope.cn/models/xverse/XVERSE-V-13B

  • Github:https://github.com/xverse-ai/XVERSE-V-13B

  • 问询发送:opensource@xverse.cn

商业合作

微信添加:lixing_lixing

元象持续打造国内开源标杆,在国内最早开源最大参数65B 全球最早开源最长上下文256K  以及  国际前沿的MoE模型, 并在SuperCLUE测评全国领跑。此次推出MoE模型, 填补国产开源空白,更将其 推向了国际领先水 平。

商业应用上,元象大模型是 广东最早获得国家备案的模型之一  ,可向全社会提供服务。元象大模型去年起已和多个腾讯产品,包括 QQ音乐  、虎牙直播、全民K歌、腾讯云等,进行深度合作与应用探索,为文化、娱乐、旅游、金融领域打造创新领先的用户体验。

元象首个多模态大模型 XVERSE-V 开源,刷新权威大模型榜单,支持任意宽高比输入

2
 多方向实际应用表现突出

模型不仅在基础能力上表现出色,在实际的应用场景中也有着出色的表现。具备不同场景下的理解能力,能够处理信息图、文献、现实场景、数理题目、科学文献、代码转化等不同需求。

  • 图表理解

不论是复杂图文结合的信息图理解,还是单一图表的分析与计算,模型都能够自如应对。

元象首个多模态大模型 XVERSE-V 开源,刷新权威大模型榜单,支持任意宽高比输入

元象首个多模态大模型 XVERSE-V 开源,刷新权威大模型榜单,支持任意宽高比输入

  • 视障真实场景

在真实视障场景测试集VizWiz中,XVERSE-V 表现出色,超过了InternVL-Chat-V1.5、DeepSeek-VL-7B 等几乎所有主流的开源多模态大模型。该测试集包含了来自真实视障用户提出的超过31,000个视觉问答,能准确反映用户的真实需求与琐碎细小的问题,帮助视障人群克服他们日常真实的视觉挑战。

元象首个多模态大模型 XVERSE-V 开源,刷新权威大模型榜单,支持任意宽高比输入

VizWiz测试示例

  • 看图内容创作

XVERSE-V 具备多模态能力的同时保持强大的文本生成能力,能够很好胜任理解图像后创造性文本生成的任务。

元象首个多模态大模型 XVERSE-V 开源,刷新权威大模型榜单,支持任意宽高比输入

  • 教育解题

模型具备了广泛的知识储备和逻辑推理能力,能够识别图像解答不同学科的问题。

元象首个多模态大模型 XVERSE-V 开源,刷新权威大模型榜单,支持任意宽高比输入

  • 百科解答

模型储备了历史、文化、科技、安全等各类主题的知识。

元象首个多模态大模型 XVERSE-V 开源,刷新权威大模型榜单,支持任意宽高比输入

  • 代码撰写

元象首个多模态大模型 XVERSE-V 开源,刷新权威大模型榜单,支持任意宽高比输入

  • 自动驾驶

元象首个多模态大模型 XVERSE-V 开源,刷新权威大模型榜单,支持任意宽高比输入

  • 情感理解与识别

元象首个多模态大模型 XVERSE-V 开源,刷新权威大模型榜单,支持任意宽高比输入

本站部分文章来自互联网,文章版权归原作者所有。如有疑问请联系QQ:362580117!

相关文章

接管率能否成为自动驾驶能力的判断标准,业界有着大量不同的声音!

接管率能否成为自动驾驶能力的判断标准,业界有着大量不同的声音!

2月27日,加州车管所(DMV)的 2019 年年度自动驾驶接管报告如期而至。 按照相关规定,在加州道路上测试自动驾驶汽车的公...

我国大数据产业规模达1.3万亿元复合增长率超30%

我国大数据产业规模达1.3万亿元复合增长率超30%

日前,中国信息通信研究院发布的《大数据白皮书》显示,我国大数据领域良好发展的态势进一步巩固,数据存储与计算、数据管理、数据流通、数据应用、数...

人才为引擎 电梯产业提档升级

人才为引擎 电梯产业提档升级

 近日,走进位于南浔经济开发区(东迁街道)的沃克斯迅达电梯有限公司,全自动激光切割机、国际先进的钣金生产线、各式各样的机器人焊接线……先进的设备无不显示着企业生产的现代化。“领衔民...

长城汽车“柠檬混动DHT”、“咖啡智驾”解决方案大力推动汽车智能化!

长城汽车“柠檬混动DHT”、“咖啡智驾”解决方案大力推动汽车智能化!

2020年12月长城汽车的月销量突破了15万辆,接近历史高点,外加 “柠檬混动DHT”、“咖啡智驾”等全新解决方案推出,智能化优势不...

吉利星瑞L智擎:节能之旅的实力强将

吉利星瑞L智擎:节能之旅的实力强将

星瑞L智擎在此次节能大赛中的表现令人印象深刻,它不仅在能耗方面取得了显著优势,更在驾驶体验、操控性能与配置丰富度上展现出超强竞争力。 顺...

卷流量?不如卷技术!一文看尽二十六家汽车产业链玩家的进化与狂欢|2024北京车展

卷流量?不如卷技术!一文看尽二十六家汽车产业链玩家的进化与狂欢|2024北京车展

北京车展接近尾声,由绿衣男人雷军、红衣教主周鸿祎掀起的流量狂潮渐渐褪去,零跑、飞凡、极越、远航、极石、创维、理想、鸿蒙智行、阿维塔、iCAR等...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。