阿里云机器学习PAI发布基于HLO的全自动分布式系统 TePDist,并宣布开源!

访客2年前AI生活240
阿里云机器学习PAI发布基于HLO的全自动分布式系统 TePDist,并宣布开源!

近日,阿里云机器学习平台PAI正式发布自研的基于HLO的全自动分布式深度学习系统 TePDist。它通过在HLO上做分布式策略搜索,能够与用户模型构建语言解耦。并且在保持通用性的同时,能够在可接受的策略搜索时间内,追求高性能分布式策略,同时用户无需修改模型主体代码,系统能够全自动地帮助用户做分布式扩展,有效解决了分布式框架长期以来在实际生产场景中手工优化和自动分布式工作存在的诸多性能和效率问题。

TePDist不仅仅是一个分布式Compiler,还拥有自己的分布式Runtime,以解决深度学习模型并行策略的自动搜索与分布式策略实施问题。在架构方面,TePDist采用Client/Server模式,实现分布式策略与模型描述的解耦。Server端是TePDist最重要部分,以HLO IR作为输入,自动探索并实施分布式并行策略;Client端以用户描述的模型为输入,将其转换成HLO IR。因此,任何具有转换HLO IR能力的Client,都可经过适配后接入Server端。

999.jpg

在功能方面,TePDist分为两个部分。一是在HLO IR上进行SPMD(Data Parallel和Sharding)和Pipeline并行的策略搜索。并以此构建编译基于Task Graph的执行计划。二是高效运行执行计划的分布式执行引擎。同时,TePDist提供了不同优化级别,高优化级别更加追求分布式策略质量,低优化级别会额外采取一些Heuristic,以较为微小策略质量牺牲,换取更快地搜索时间,以此满足落地需求。

性能上,TePDist通过在GPT和MoE模型上SPMD+Pipeline混合策略的模型扩展性实验,TePDist能够使GPT和MoE分别达到峰值能力的62%和58%。同时,在自动化方面的通用性上,TePDist也通过了VGG-19,DNABert和UNet等模型实验验证。

一直以来,大模型在模型效果上被证明具有显著优势。而ChatGPT的出现,证明了其在工业生产工具方面具有巨大潜力。阿里云机器学习平台PAI也宣布将TePDist开源,与AI开发者共同打造更快更好的自动分布式系统,全面助力AI大模型发展!

本站部分文章来自互联网,文章版权归原作者所有。如有疑问请联系QQ:362580117!

相关文章

新加坡新规多次狙击含糖饮料,居民健康问题首要关注货架上的“隐形糖”

新加坡新规多次狙击含糖饮料,居民健康问题首要关注货架上的“隐形糖”

近日,新加坡卫生部王乙康在出席活动时宣布,从2023年年底开始新加坡将禁止含糖量与反式脂肪酸较高的饮料进行广告宣传,具体措施将在明年年中公布。...

一汽丰田电动化再加码:85亿筹建新能源工厂!

一汽丰田电动化再加码:85亿筹建新能源工厂!

2月27日有报道称,一汽丰田正在天津筹建一座年产能20万辆的新能源汽车工厂,预计总投资85亿元。 一汽丰田相关人士给出的答案是...

2021西湖论剑网络安全大会:筑牢数字化改革之根基!

2021西湖论剑网络安全大会:筑牢数字化改革之根基!

数字化、网络化、智能化已成为当前的时代特征,融入到生产、生活的方方面面,但随之而来的安全风险也越来越受到各界的重视。 今天,以“安全:...

10家知名生物制药企业,成立“医药数据共享联盟”!

10家知名生物制药企业,成立“医药数据共享联盟”!

医疗与医药数据的流通共享,是医疗机构既兴奋又畏惧的美梦。 兴奋,在于让整个行业可以使用更多维的数据,在效果上实现精准医疗,在流...

深度融合,创新发展!全球数字经济产业大会将在深圳举办

深度融合,创新发展!全球数字经济产业大会将在深圳举办

深度融合,创新发展!全球数字经济产业大会将在深圳举办 由OFweek维科网、高维会展主办的2022年(第三届)全球数字经济产业大会将于20...

新算力:新,在四处;“利”,在未来

新算力:新,在四处;“利”,在未来

随着数字经济时代的全面开启,算力作为一种集信息计算力、数据存储力、网络运载力于一体的新型生产力,其支撑、赋能的重要作用日渐凸显。算力网络的发展...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。