声明:本文来自于微信公众号 量子位 (ID:QbitAI),明敏 发自 凹非寺 ,授权站长之家转载发布。
只需12秒,只凭手机自己的算力,就能拿Stable Diffusion生成一张图像。
(相关资料图)
而且是完成了20次迭代的那种。
要知道,现在的扩散模型基本都超过了10亿参数,想要快速生成一张图片,要么基于云计算,要么就是要本地硬件够强大了。
而随着大模型应用逐渐普及开来,在个人电脑、手机上跑大模型很可能是未来的新趋势。
由此,谷歌的研究员们带来了这篇新成果,名字就叫Speed is all you need:通过GPU优化加速大规模扩散模型在设备上的推理速度。
该方法是针对Stable Diffusion来做的优化,但同时也能适应其他扩散模型。面向的任务是从文本生成图像。
具体优化可以分成三个部分:
设计专门的内核
提升Attention模型效率
Winograd卷积加速
首先来看专门设计的内核,它包括了组归一化和GELU激活函数。
组归一化是在整个UNet体系结构中实现,这种归一化的工作原理是将特征映射的通道划分为更小的组,并对每个组独立归一,使组归一化较少依赖于批大小,并且能适应更大范围的批处理大小和网络架构。
研究人员以GPU着色器(shader)的形式设计了一个独特的核,能在没有任何中间张量的情况下,在单个GPU命令中执行所有内核。
GELU激活函数中,包含大量的数值计算,如惩罚、高斯误差函数等。
通过一个专用着色器来整合这些数值计算以及伴随的分割和乘法操作,使得这些计算能放在一个简单的draw call里。
Draw call是CPU调用图像编程接口,命令GPU进行渲染的操作。
接下来,到了提升Attention模型效率方面,论文介绍了两种优化方法。
其一是部分融合softmax函数。
为了避免在大矩阵A上执行整个softmax计算,该研究设计了一个GPU着色器来计算L和S向量以减少计算,最终得到一个大小为N×2的张量。然后将softmax计算和矩阵V的矩阵乘法融合。
这种方法大幅减少了中间程序的内存占用张量和总体延迟。
需要强调的是从A到L、S的计算映射的并行是有限的,因为结果张量中的元素比输入张量A中的元素数量要少得多。
为了增加并行、进一步降低延迟,该研究将A中的元素组成block,将归约操作(reduction operations)切分为多个部分进行。
然后在每个block上执行计算,然后将其简化为最终结果。
利用精心设计的线程和内存缓存管理,可以在多个部分实现使用单个GPU命令降低延迟。
另一种优化方法是FlashAttention。
这是去年火起来的IO感知精确注意力算法,具体有两种加速技术:按块递增计算即平铺、并在后向传递中重新计算注意力,将所有注意力操作融合到CUDA内核中。
相较于标准Attention,这种方法能减少HBM(高带宽内存)访问,提高整体效率。
不过FlashAttention内核的缓存器密集度非常高(register-intensive),所以该团队是有选择性地使用这一优化方法。
他们在注意力矩阵d=40的Adreno GPU和Apple GPU上使用FlashAttention,其他情况下使用部分融合softmax函数。
第三部分是Winograd卷积加速。
它的原理简单来说就是使用更多的加法计算来减少乘法计算,从而降低计算量。
但弊端也很明显,将会带来更多的显存消耗和数值错误,尤其是在tile比较大的情况时。
Stable Diffusion的主干非常依赖3×3卷积层,尤其是在图像解码器方面,这里90%的层都是由3×3卷积层构成的。
研究人员分析后发现,在使用4×4大小的tile时,是模型计算效率和显存利用率的最佳平衡点。
为了评估提升效果,研究人员先在手机上进行了基准测试。
结果表明,两部手机在使用了加速算法后,生成图片的速度都明显提升。
其中三星S23Ultra的延迟降低了52.2%,iPhone14Pro Max上的延迟降低了32.9%。
在三星S23Ultra上端到端从文本生成一张512×512像素的图片,迭代20次,耗时在12秒以内。
论文地址:
https://arxiv.org/abs/2304.11267
(举报)
上一篇:天天报道:读书卡内容100字摘抄_读书卡内容100字
下一篇:最后一页
只需12秒,只凭手机自己的算力,就能拿Stable+Diffusion生成一张图像。且是完成了20次迭代的那种。在三星S2
1、读书卡书名:《一千零一夜》好词:恍然大悟、无恶不作、虔心虔意、花言巧语;好句:现在我的心都快破碎
在可见的未来,人民币的目标不是取代美元,而是成为国际货币多元化中的重要一极。4月26日,阿根廷经济部长
今天,游客、目的地、旅游企业和旅游从业者都倍加珍惜并热切憧憬这个“五一”假期。我们期待,在各方通...
为肝脏排毒。肝脏为人体的重要解毒器官,而肝脏排毒为各种毒素经过肝脏的一系列化学过程后,将毒素转换成无
4月27日北向资金增持35 75万股沧州大化。近5个交易日中,获北向资金减持的有3天,累计净减持38 82万股。近2
有这么一趟高铁,它经过省份最多,一次可以贯穿上海、浙江、江西、湖南、贵州、云南6个省(市)。也是这趟
文 羊城晚报全媒体记者景瑾瑾通讯员禅公宣“五一”黄金周到来前夕,佛山禅城公安结合“春季守护行动”...
五一假期来临 不少人提前规划行程 早早安排好了出游计划 与此同时 各地发放消费券热潮来袭
1、较长时期以来,我国货币政策重点监测、分析的指标和调控中间目标是M2和新增人民币贷款。2、在某些年份,
注意啦!注意啦!东孚街道为大家派发“五一红包”啦!从4月27日开始通过“天竺山下”小程序发放3万份总...
昆仑万维(300418)4月27日晚间披露一季报,一季度实现营业收入12 17亿元,同比增长2 05%;净利润2 12亿元,
原标题:娱乐圈“六大赘婿”出炉:男弱女强的婚姻,满是心酸娱乐圈中不乏一些“嫁豪门”的女星,她们成...
4月21日,荣耀春日新机荣耀X50i正式登场。该机采用一亿像素超清影像,配备6 7英寸超窄边护眼全视屏,采用微
新京报讯4月27日,中超球队成都蓉城发表声明,要求中国足协严厉打击部分极端大连球迷的“暴力行径”。俱...
同花顺(300033)金融研究中心4月27日讯,有投资者向亚盛集团(600108)提问,请问董秘,第一上市公司有权
佩蒂股份(300673):海外库存待消化国内自主品牌持续发力
由农业农村部对外经济合作中心主办的首届智慧农业博览会,4月25日在山东潍坊富华国际展览中心开幕,近千家
也门人默丁,今年35岁,2009年来到中国后,经历了诸多人生转折点。读博、结婚、生子。2022年,他又在天津开
说曹操,曹操到!4月27日,河南安阳曹操高陵遗址博物馆开馆,488件(套)精美文物首度集中亮相。曹操高陵4
今年以来,农发行龙岩分行认真落实总行“两基”建设三年行动方案,聚焦重点目标任务,深化基层治理,提...
为进一步打造持续有效的竞争优势,大力弘扬“人人都是英雄”的核心价值观,按照2023年“核心能力提升年...
4月27日,中国平安A股午后触及涨停,为2015年8月以来首次,成交超95亿元。截至发稿,A股中国平安涨9 78%,
天眼查App显示,近日,国美电器有限公司新增3则被执行人信息,执行标的共计5519万余元,其中一起关联案件为
民生证券04月27日发布研报称,给予星源材质(300568 SZ,最新价:17 59元)推荐评级。评级理由主要包括:1
X 关闭
X 关闭