llm 推理 latency 分析 - Zhang #215

2025-03-10T06:13:10Z

giscus[bot]
bot Mar 10, 2025

llm 推理 latency 分析 - Zhang

从事 LLM 推理部署、视觉算法开发、模型压缩部署以及算法SDK开发工作,终身学习践行者。Transformer考虑基于 roofline 模型和的 llm decode 阶段的 latency 分析，对于小 batch 的模型推理，单个 token 的推理 latency 可能受限于 gpu 的内存带宽，即内存读取时间 > 计算时间；对于大 batch，单个 token 的推理 latency 受限于 gpu 的算力，即内存读取时间 > 计算时间。

https://www.armcvai.cn/2024-09-21/llm-latency.html

nikeboysj · 2025-03-10T06:13:12Z

nikeboysj
Mar 10, 2025 — with giscus

您好，对于这个结论“对于 llm 的 decode 阶段，只要批量大小大于 208，则推理处于计算受限，计算效率更高。”，假如是换成FP8来说，计算能力翻倍，显存访问折半，就应该是208*4？

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

llm 推理 latency 分析 - Zhang #215

Uh oh!

{{title}}

Uh oh!

Replies: 1 comment

Uh oh!

{{title}}

Uh oh!

Select a reply

Uh oh!

llm 推理 latency 分析 - Zhang #215

Uh oh!

giscus[bot] bot Mar 10, 2025

llm 推理 latency 分析 - Zhang

Replies: 1 comment

Uh oh!

nikeboysj Mar 10, 2025 — with giscus

giscus[bot]
bot Mar 10, 2025

nikeboysj
Mar 10, 2025 — with giscus