英伟达H100利用率提升至75%,FlashAttention三代速度翻倍
经过一年的更新和优化,FlashAttention-3已全方位升级。根据量子位的报道,这次的更新主要包括训练速度的提升、计算吞吐量的增加以及误差的减小。具体来说,训练速度比FlashAttention-2快1.5到2倍,FP16下计算吞吐量达到了740TFLOPs/s,达到理论最大吞吐量的75%,比之前只能达到35%的情况大大提高了对计算资源的利用效率。同时,FP8下的计算速度也提高到了1.2PFLOPs/s,误差则进一步减小,FP8下的误差比标准Attention减少2.6倍。
值得注意的是,这次的更新并非只有Tri Dao单打独斗,而是直接与英伟达、Meta、谷歌等大公司合作,针对最强芯片H100专门进行优化。并且,此次更新后的FlashAttention-3将开源,PyTorch和Hugging Face中都会集成这一技术。
值得注意的是,这次的更新并非只有Tri Dao单打独斗,而是直接与英伟达、Meta、谷歌等大公司合作,针对最强芯片H100专门进行优化。并且,此次更新后的FlashAttention-3将开源,PyTorch和Hugging Face中都会集成这一技术。
声明:本站所有文章资源内容,如无特殊说明或标注,均为采集网络资源。如若本站内容侵犯了原著者的合法权益,可联系本站删除。