阿里云机器学习平台PAI论文入选 SIGMOD 2023

访客1年前AI生活126
阿里云机器学习平台PAI论文入选 SIGMOD 2023

近日,阿里云机器学习平台PAI和北京大学杨智老师团队合作的论文《GoldMiner: Elastic Scaling of Training Data Pre-Processing Pipelines for Deep Learning》被SIGMOD 2023录用。论文通过对深度学习数据预处理流水线的弹性伸缩,大幅提升了训练性能和集群资源利用效率。

999.jpg 

SIGMOD是数据库与数据管理系统领域的国际顶级会议,自1975年首次举办以来,一直对数据管理、存储和处理的发展起着深刻的推动作用,在学术和工业界均有巨大影响力。SIGMOD也重视数据管理系统与其他方向的交叉,尤其近年来也对机器学习和人工智能领域格外关注。此次入选意味着阿里云机器学习平台PAI在深度学习数据处理方向达到了全球业界先进水平,获得了国际学者的认可,展现了中国机器学习系统技术创新在国际上的竞争力。

近年来,随着GPU加速器的不断进化,以及各类软件优化技术的层出不穷,深度学习训练的计算效率正不断被提升到新的层次。但与此同时,深度学习本质上仍是一种多阶段、多资源的任务类型:不仅需要在GPU上进行大量的训练计算,同时往往也需要CPU端的数据预处理流水线(如数据增强、特征转换等),这类预处理计算是训练出高质量模型的必要步骤。因此,GPU端训练性能的提升也带来了更大的数据预处理压力,使后者成为新的性能瓶颈。

针对这一问题,在观察后发现数据预处理流水线具有无状态的特点,具有内在的资源弹性。基于此,GoldMiner将数据预处理流水线和模型训练部分分离执行,通过自动计算图分析来识别无状态的数据预处理计算,并对其实现高效的并行加速和弹性伸缩,从而缓解数据预处理瓶颈,提升训练性能。通过与集群调度器的协同设计,GoldMiner进一步发挥了数据预处理计算的资源弹性,大幅提升集群调度效率。实验显示GoldMiner可提升训练性能最高达12.1倍,提升GPU集群利用率达2.5倍。

目前阿里云机器学习平台 PAI正在将GoldMiner与PAI-DLC集成,以向用户提供数据预处理加速能力。机器学习平台PAI面向企业客户及开发者,提供轻量化、高性价比的云原生机器学习,涵盖PAI-DSW交互式建模、PAI-Designer可视化建模、PAI-DLC分布式训练到PAI-EAS模型在线部署的全流程。其中PAI-DLC提供了云原生一站式的深度学习训练平台,提供灵活、稳定、易用和高性能的机器学习训练环境。支持多种算法框架,超大规模分布式深度学习任务运行及自定义算法框架,为开发者和企业降本增效。

· 论文名字:GoldMiner: Elastic Scaling of Training Data Pre-Processing Pipelines for Deep Learning

· 论文作者:赵汉宇,杨智,程羽,田超,任仕儒,肖文聪,袁满,陈浪石,刘恺博,张杨,李永,林伟

· 论文pdf链接:https://dl.acm.org/doi/pdf/10.1145/3589773

本站部分文章来自互联网,文章版权归原作者所有。如有疑问请联系QQ:362580117!

相关文章

“大兵团作战” 抢先布局赢得发展主动权 浦东数据要素重点产业集聚区发布新“蓝图”

“大兵团作战” 抢先布局赢得发展主动权 浦东数据要素重点产业集聚区发布新“蓝图”

金融数据港 数据要素是数字经济深化发展的核心引擎,数据作为新型生产要素已快速融入经济社会运行各个环节。记者从昨日举行的浦东新区数据要素产...

阿里高管新变动:华先胜离职、周靖人任达摩院副院长;肖利华创业、任庚接管视频云

阿里高管新变动:华先胜离职、周靖人任达摩院副院长;肖利华创业、任庚接管视频云

据消息,近日,达摩院和阿里云业务线的多位P11、P12高管发生职务变动。 在达摩院,阿里巴巴集团副总裁、达摩院城市大脑实验室负责人华先胜(P...

三星与Google合作开发的Exynos芯片组将于今年内发布!

三星与Google合作开发的Exynos芯片组将于今年内发布!

最近有外媒爆料,三星正在与Google合作,联合开发定制Exynos芯片组,这款芯片最快会在今年推出,有可能在未来的谷歌Pixel中端机型上...

“爱卡数字人” 开创汽车资讯数字化服务先河

“爱卡数字人” 开创汽车资讯数字化服务先河

 7月15日, 爱卡数字人开启智能服务。 万物互联时代,伴随着数字经济快速发展和AI技术的日益成熟,数字人的功能和价值不断被挖掘,“爱卡数...

行泊一体 Tier1 猛攻「性价比」,逼退车企「全栈自研」防线

所有人都有共同的期望和热烈的眼神,大家都想找到不变的东西,但现在恰恰是变和不变交织的阶段,变化实在太快了。 今年是行泊一体方案量产落地的大年。...

「36亿美元市值」基因编辑公司深陷专利纠纷,联合创始人为诺奖得主

「36亿美元市值」基因编辑公司深陷专利纠纷,联合创始人为诺奖得主

Intellia Therapeutics的CEO John Leonard刚刚在公司位于马萨诸塞州剑桥市的总部办公室结束了一个小时的会议,这...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。