TGTGInsighttelegram intelligenceLIVE / telegram public index
← Hypercube's Channel
Hypercube's Channel avatar

TGINSIGHT POST

Post #214

@SmartHypercube_channel

Hypercube's Channel

Views349帖子阅读量
发布5月17日2025/05/17 15:55
Post content

帖子内容

感谢博杰送了我一本他翻译的《图解大模型》,晚上看了前面一部分,终于理解注意力和 KV cache 是怎么工作的了(一直觉得我应该搞明白但没搞明白的两个概念,原来是紧密相关的呀)。 感觉至少前三章讲基础知识时节奏还是很快的,对我这种跨领域的读者来说有点难跟上😂不过后面似乎更大篇幅是比较偏实践和应用的,可能简单一些。