商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”

访客1年前AI生活135

3月14日,商汤科技发布多模态多任务通用大模型“书生(INTERN)2.5”,在多模态多任务处理能力方面实现多项全新突破,其卓越的图文跨模态开放任务处理能力可为自动驾驶、机器人等通用场景任务提供高效精准的感知和理解能力支持,向通用人工智能迈出坚实的一步。“书生(INTERN)”最初版本由商汤科技、上海人工智能实验室、清华大学、香港中文大学、上海交通大学在2021年11月首次共同发布,并持续联合研发。

“书生2.5”拥有30亿参数,不仅是世界上开源模型中ImageNet准确度最高、规模最大的模型,也是物体检测标杆数据集COCO中唯一超过65.0 mAP的模型。目前,“书生2.5”多模态通用大模型已在通用视觉开源平台OpenGVLab开源(https://github.com/OpenGVLab/InternImage),为学术界和产业界的多模态通用模型研发提供有力支撑。

当前,人工智能技术的发展正面临着大量跨模态任务的挑战,为满足快速增长的各式应用场景需求,发展更为通用的人工智能模型已成为科技前沿的核心焦点问题。此次全新发布的“书生2.5”致力于多模态多任务通用模型的构建,可接收处理各种不同模态的输入,并采用统一的模型架构和参数处理各种不同的任务,促进不同模态和任务之间在表示学习方面的协作,逐步实现通用人工智能领域的融会贯通。

迈向AGI通用人工智能,大幅提升通用场景感知和理解能力

在当今快速增长的各式应用场景需求下,传统计算机视觉已无法处理真实世界中数不胜数的特定任务和场景需求。我们迫切需要一种具备通用场景感知和复杂问题处理能力的高级视觉系统。

“书生2.5”实现了通过文本来定义任务,从而可以灵活地定义不同场景的任务需求,并根据给定视觉图像和任务的提示性语句,给出相应的指令或作答,进而具备通用场景下的高级感知和复杂问题处理能力,比如图像描述、视觉问答、视觉推理和文字识别等。

在自动驾驶和居家机器人等通用场景下,“书生2.5”可辅助处理各种复杂任务。例如在自动驾驶场景下,可以大幅提升场景感知理解能力,准确地辅助车辆判断交通信号灯状态、道路标志牌等信息,为车辆的决策规划提供有效信息输入。

商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”利用多模态多任务通用大模型辅助完成自动驾驶场景中各类复杂任务

商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”利用多模态多任务通用大模型辅助完成居家机器人场景中各类复杂任务

除了解决例如自动驾驶和居家机器人这类复杂问题的能力,“书生2.5”通用大模型也可以解决纷繁复杂的日常生活中的常见任务,满足各种需求。

商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”

商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”

除了全图级别的以图生文,“书生2.5”通用大模型同样可以根据物体边框更精细化定位任务需求。

商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”

“书生2.5”同时具备AIGC“以文生图”的能力,可根据用户提出的文本创作需求,利用扩散模型生成算法,生成高质量、自然的写实图像。例如借助“书生2.5”的以文生图能力帮助自动驾驶技术研发,通过生成各类真实的道路交通场景,如繁忙的城市街道、雨天拥挤的车道、马路上奔跑的狗等,生成写实的Corner Case训练数据,进而训练自动驾驶系统对Corner Case场景的感知能力上限。

商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”

商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”

商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”

“书生2.5”还可根据文本快速检索出视觉内容。例如,可在相册中返回文本所指定的相关图像,或是在视频中,检索出与文本描述最相关的帧,提高视频中时间定位任务的效率。此外还支持引入物体检测框,根据文本返回最相关的物体,可实现开放世界视频或图像中物体检测及视觉定位。

商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”

三位一体,高效能打通自然语言、图像等多模态任务处理

“书生2.5”在图文跨模态领域卓越的性能表现来自于视觉、语言及多任务建模三大模型能力的有效融合,即InternImage-G通用视觉大模型、用于文本理解的超大语言预训练模型(LLM)和用于多任务的兼容解码建模大模型(Uni-Perceiver)。

其中,InternImage-G通用视觉大模型能够基于动态稀疏卷积算子自适应地调整卷积的位置和组合方式,从而为多功能视觉感知提供强大的表示。超大语言模型通过在超大规模丰富文本语料库上进行预训练提供强大可靠的文本特征。Uni-Perceiver通才任务解码建模通过将不同模态的数据编码到统一的表示空间,将不同任务统一为相同的任务范式,从而能够以相同的架构和共享的模型参数同时处理各种模态和任务。此外,“书生2.5”还创新性地引入了任务级别的稀疏激活机制,使其具备高效的多任务协作能力。

商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”

在视觉主流图像分类数据集ImageNet上,该模型仅基于公开数据便达到了90.1%的Top-1准确率。这是除谷歌与微软之外,唯一准确率超过90.0%的模型,值得一提的是,谷歌与微软均未公开模型及额外数据集。“书生2.5”同时也是世界上开源模型中ImageNet准确度最高、规模最大的模型。

除了高精确度的语义理解能力外,“书生2.5”在目标定位性能上同样有着出色的表现。在物体检测标杆数据集COCO上,其取得了65.4的mAP,是世界上唯一超过65.0 mAP的模型。“书生2.5”也在包括图像分类、物体检测、语义分割、图像描述、图文检索等20+个不同场景、不同任务的单模态和跨模态公开数据集中都取得了最佳成绩。

商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”在20余个不同场景、不同任务的单模态和跨模态公开数据集中都取得了最佳成绩

开源模型社区性能最强多模态大模型,加速学术和产业界多模态通用模型研发

即日起,“书生2.5”多模态通用大模型已在通用视觉开源平台OpenGVLab开源,成为目前开源模型社区能提供的性能最强的多模态大模型。

OpenGVLab致力于通用视觉模型的开源社区建设,开源项目覆盖数据、模型、评测基准全链路,为学术界和产业界的多模态通用模型研发提供了坚实的支撑。在数据方面,OpenGVLab构建了千万级超大规模精标注数据集,涵盖了图像分类、目标检测等视觉核心任务的标注,同时包括各类图像中的属性、状态等的精细标注,显著降低了数据的采集成本。在模型方面,OpenGVLab的开源项目全方位覆盖了通用模型架构、高效训练框架及超高性能的预训练模型,助力社区用极低的数据量快速满足多场景、多任务、高性能的AI模型训练,并供所有对人工智能技术感兴趣的人士自由体验。

商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”

OpenGVLab还提供了多任务、多模态的通用视觉评测基准,可以提供权威的评测结果,推动基于统一标准的公平和准确评测,加快通用视觉模型的产业化应用步伐。通过开源社区的建设,OpenGVLab帮助开发者显著降低通用视觉模型的开发门槛,用更低成本快速开发用于成百上千种视觉任务、视觉场景的算法模型,高效实现对长尾场景的覆盖,推动通用AI技术的规模化应用。

当前,“书生”还在持续学习、不断进步,致力于实现多模态多任务通用模型技术的突破,驱动通用人工智能技术的创新应用生态,为推动人工智能学术、产业发展做出贡献。

本站部分文章来自互联网,文章版权归原作者所有。如有疑问请联系QQ:362580117!

相关文章

Nature 盘点诺奖历史,多位得主靠「计算科学」获殊荣

Nature 盘点诺奖历史,多位得主靠「计算科学」获殊荣

在今年诺贝尔奖到来之际,Nature 杂志总结了往年因计算科学贡献而诞生的诺奖得主,以此纪念计算科学对化学和物理学领域的贡献。 在诺贝奖的计算...

开创数字人WorkChat工作领域应用,打造数字大脑WorkBrain领先技术

开创数字人WorkChat工作领域应用,打造数字大脑WorkBrain领先技术

当前,AIGC的指数级发展,为各行各业的数智化变革带来新的机遇,也为AI落地应用带来新的想象空间。明途科技基于多年的政企数智化服务经验,率先...

金桥智能网联汽车测试示范区:构建特色应用场景 助力“未来车”驶上“快车道”

金桥智能网联汽车测试示范区:构建特色应用场景 助力“未来车”驶上“快车道”

浦东金桥智能网联汽车测试示范区是国内首个特大型城市中心城区自动驾驶汽车开放测试道路,首期里程29.3公里,也是目前上海风险等级最高的开放测试...

AI的「iPhone时刻」后,英伟达打开生成式模型「魔盒」

AI的「iPhone时刻」后,英伟达打开生成式模型「魔盒」

在人工智能应用“淘金潮”的火热背后,总少不了“卖水工”英伟达的“默默付出”。 最近爆红的ChatGPT也离不逃脱不开这一定律。正如英伟达CEO...

原达摩院大模型 M6 带头人杨红霞加入字节,语言生成大模型再迎新玩家

原达摩院大模型 M6 带头人杨红霞加入字节,语言生成大模型再迎新玩家

字节入场语言生成大模型,国内大厂在大模型领域的竞争又热闹了! 近日有消息称,原达摩院大模型 M6 带头人杨红霞已加入字节 AI lab,参与...

GAIR Live 预告 | 本土化汽车操作系统的发展路径与落地实践

GAIR Live 预告 | 本土化汽车操作系统的发展路径与落地实践

随着汽车行业向软件定义的方向发展,操作系统成为驱动汽车智能化发展的重要组成部分。 现代汽车操作系统不仅需要管理底层硬件的驱动程序,还需要提供丰...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。