llm 推理 latency 分析 - Zhang #215
Replies: 1 comment
-
您好,对于这个结论“对于 llm 的 decode 阶段,只要批量大小大于 208,则推理处于计算受限,计算效率更高。”,假如是换成FP8来说,计算能力翻倍,显存访问折半,就应该是208*4? |
Beta Was this translation helpful? Give feedback.
0 replies
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Uh oh!
There was an error while loading. Please reload this page.
-
llm 推理 latency 分析 - Zhang
从事 LLM 推理部署、视觉算法开发、模型压缩部署以及算法SDK开发工作,终身学习践行者。Transformer考虑基于 roofline 模型和的 llm decode 阶段的 latency 分析,对于小 batch 的模型推理,单个 token 的推理 latency 可能受限于 gpu 的内存带宽,即内存读取时间 > 计算时间;对于大 batch,单个 token 的推理 latency 受限于 gpu 的算力,即内存读取时间 > 计算时间。
https://www.armcvai.cn/2024-09-21/llm-latency.html
Beta Was this translation helpful? Give feedback.
All reactions