华盛顿大学计算机科学博士生陈天启和上海交大和复旦大学的研究团队提出了一种基于学习的框架,以优化用于深入学习工作负载的张量程序。自动优化张量核,编译AI工作负载,从而使最佳性能被部署到所有硬件。实验结果表明,该框架可以提供性能与最先进的手动调谐库的低功耗CPU,移动GPU和服务器L。EGVE-GPU。
深度学习在我们的日常生活中无处不在。深度学习模型现在可以识别图像,理解自然语言,玩游戏,并自动系统决策(如设备放置和索引)。张量运算符,如矩阵乘法和高维卷积,是BASI。C组件的深度学习模型。
可扩展的学习系统依赖于手动优化的高性能张量操作库,如CUDNN。这些库针对较窄的硬件进行优化。为了优化张量操作符,程序员需要从逻辑上等效的许多实现中选择,但性能VA。由于线程、内存重用、流水线等硬件因素的影响。
支持各种硬件后端需要巨大的工程努力。即使在当前支持的硬件上,深入的学习框架和模型的开发从根本上限制了优化操作员设置,在库中防止诸如操作员融合之类的优化,导致不支持的操作符。
为了解决这个问题,华盛顿大学计算机科学博士生陈天启和上海交大和复旦大学的研究团队提出了一个基于学习的框架,以优化用于深入学习工作负载的张量程序。
我们提出了一个基于学习的框架来优化用于深入学习工作负载的张量程序。矩阵乘法和张量算子的有效实现是有效的深度学习系统的关键。然而,现有的系统依赖于手工优化的库,如CUDNN。硬件服务器所需的操作库的依赖限制了高级图形优化的适用性,并且当部署到新的硬件目标时会导致巨大的工程成本。我们使用学习来消除这个项目负担。我们李尔NED域特定的统计成本模型来指导搜索张量算
贵州seo子在数十亿个可能的程序变体上的实现。我们通过跨工作负载迁移有效模型来进一步加速搜索速度。
实验结果表明,我们的框架可以提供性能与最先进的手动调谐库的低功耗CPU,移动GPU和服务器级GPU。
我们问下面的问题:我们可以学习减少这个工程负担和自动优化张量运营商为一个给定的硬件平台本文提出了一个对这个问题的肯定回答,我们建立了一个统计成本模型来预测给定的低层程序的运行时间,这些成本模型指导了可能的程序空间的探索,我们的成本模型使用可在不同之间推广的可迁移表示。ENT工作负载,加速搜索工作。
在真实的深入学习负载上的实验表明,我们的框架提供了比现有框架更好的1.2到3.8倍的端到端性能改进。
图1:这个问题的一个例子。对于给定的张量操作符规范,有许多可能的低级程序实现,每个都具有不同的循环顺序、大小和其他选项。每个选项创建具有不同属性的逻辑等效程序。挖掘过程空间,找到优化过程。
表1:在RESNET-18推理中的所有VARN2D操作符的配置:H和W表示高度和宽度,IC表示输入通道,OC表示输出通道,K表示内核大小,S表示字符串大小。
提出了一种基于机器学习的自动学习系统中的张量算子的自动优化框架,该模型能够有效地实现工作负载之间的模型共享,并通过模型迁移加速优化过程。这种新方法的实验结果显示了深度学习部署的好处。
除了我们的解决方案框架,这个新问题的具体特点,使其成为一个理想的测试平台,在相关领域的创新,如神经编程,贝叶斯优化,迁移学习,强化学习。
在系统方面,学习优化张量允许更多的融合操作符、数据布局和数据类型跨越不同的硬件后端。这些改进对于改进深度学习系统是必不可少的。我们将打开我们的实验框架以鼓励更多的研究在这些指导中。NS。