阿里云机器学习PAI发布基于HLO的全自动分布式系统 TePDist,并宣布开源!

访客2年前AI生活242
阿里云机器学习PAI发布基于HLO的全自动分布式系统 TePDist,并宣布开源!

近日,阿里云机器学习平台PAI正式发布自研的基于HLO的全自动分布式深度学习系统 TePDist。它通过在HLO上做分布式策略搜索,能够与用户模型构建语言解耦。并且在保持通用性的同时,能够在可接受的策略搜索时间内,追求高性能分布式策略,同时用户无需修改模型主体代码,系统能够全自动地帮助用户做分布式扩展,有效解决了分布式框架长期以来在实际生产场景中手工优化和自动分布式工作存在的诸多性能和效率问题。

TePDist不仅仅是一个分布式Compiler,还拥有自己的分布式Runtime,以解决深度学习模型并行策略的自动搜索与分布式策略实施问题。在架构方面,TePDist采用Client/Server模式,实现分布式策略与模型描述的解耦。Server端是TePDist最重要部分,以HLO IR作为输入,自动探索并实施分布式并行策略;Client端以用户描述的模型为输入,将其转换成HLO IR。因此,任何具有转换HLO IR能力的Client,都可经过适配后接入Server端。

999.jpg

在功能方面,TePDist分为两个部分。一是在HLO IR上进行SPMD(Data Parallel和Sharding)和Pipeline并行的策略搜索。并以此构建编译基于Task Graph的执行计划。二是高效运行执行计划的分布式执行引擎。同时,TePDist提供了不同优化级别,高优化级别更加追求分布式策略质量,低优化级别会额外采取一些Heuristic,以较为微小策略质量牺牲,换取更快地搜索时间,以此满足落地需求。

性能上,TePDist通过在GPT和MoE模型上SPMD+Pipeline混合策略的模型扩展性实验,TePDist能够使GPT和MoE分别达到峰值能力的62%和58%。同时,在自动化方面的通用性上,TePDist也通过了VGG-19,DNABert和UNet等模型实验验证。

一直以来,大模型在模型效果上被证明具有显著优势。而ChatGPT的出现,证明了其在工业生产工具方面具有巨大潜力。阿里云机器学习平台PAI也宣布将TePDist开源,与AI开发者共同打造更快更好的自动分布式系统,全面助力AI大模型发展!

本站部分文章来自互联网,文章版权归原作者所有。如有疑问请联系QQ:362580117!

相关文章

台积电的发展让英特尔丝毫不敢有所怠慢!华为的生死会与张忠谋有关吗?

台积电的发展让英特尔丝毫不敢有所怠慢!华为的生死会与张忠谋有关吗?

引 现年89岁高龄的张忠谋先生,已经彻底改变集成电路和半导体产业的基础格局,就连强大如Intel,也未能追赶上台积电进步的脚步,正在将...

在我国农业现代化快速发展的过程中,引入区块链这一先进的技术也恰逢其时!

在我国农业现代化快速发展的过程中,引入区块链这一先进的技术也恰逢其时!

农业,是地球上最古老的行业,更是人类赖以生产的基础行业。而区块链,是最新热的的技术,在诸多领域已大范围的应用,在我国农业现代化加快速度进行发...

特斯拉Model 3的自动驾驶功能到底安不安全?

特斯拉Model 3的自动驾驶功能到底安不安全?

SpaceX刚刚宣布上天,特斯拉就又撞了! 据媒体报道,6月1日,台湾一段高速公路上发生一起撞车事故,一辆行驶中的特斯拉Mod...

绿米游延筠:“它”从哪里来,将到哪里去

绿米游延筠:“它”从哪里来,将到哪里去

5月25日,在北京751罐召开了一场智能家居发布会,这场被游延筠称为“绿米联创(以下简称:绿米)的第一场品牌发布会”,持续了整整三个小时。...

英特尔和蚂蚁链深化合作 推出面向大规模数据保护的可信计算平台MAPPIC

英特尔和蚂蚁链深化合作 推出面向大规模数据保护的可信计算平台MAPPIC

5 月 31 日,在 Intel Vision 大会上,英特尔与蚂蚁链联合发布基于可信执行环境(TEE)的可信计算平台Massive Data...

智行畅联罗德祥:行业“老兵”眼中的汽车电子国产化

智行畅联罗德祥:行业“老兵”眼中的汽车电子国产化

在摩尔定律的加持下,手机的性能飞速提升,由过去的个人通信设备,变成了一部小型电脑,让如今的智能汽车,变成“加了四个轮子的智能手机”。手机与汽...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。