广告 X
OK欧意app

主流交易所一应俱全,立即下载进入加密世界

立即下载认证享受新用户福利

经过一年的更新和优化,FlashAttention-3已全方位升级。根据量子位的报道,这次的更新主要包括训练速度的提升、计算吞吐量的增加以及误差的减小。具体来说,训练速度比FlashAttention-2快1.5到2倍,FP16下计算吞吐量达到了740TFLOPs/s,达到理论最大吞吐量的75%,比之前只能达到35%的情况大大提高了对计算资源的利用效率。同时,FP8下的计算速度也提高到了1.2PFLOPs/s,误差则进一步减小,FP8下的误差比标准Attention减少2.6倍。
值得注意的是,这次的更新并非只有Tri Dao单打独斗,而是直接与英伟达、Meta、谷歌等大公司合作,针对最强芯片H100专门进行优化。并且,此次更新后的FlashAttention-3将开源,PyTorch和Hugging Face中都会集成这一技术。