TGTGInsighttelegram intelligenceLIVE / telegram public index
Post content
帖子内容
感谢博杰送了我一本他翻译的《图解大模型》,晚上看了前面一部分,终于理解注意力和 KV cache 是怎么工作的了(一直觉得我应该搞明白但没搞明白的两个概念,原来是紧密相关的呀)。 感觉至少前三章讲基础知识时节奏还是很快的,对我这种跨领域的读者来说有点难跟上😂不过后面似乎更大篇幅是比较偏实践和应用的,可能简单一些。
感谢博杰送了我一本他翻译的《图解大模型》,晚上看了前面一部分,终于理解注意力和 KV cache 是怎么工作的了(一直觉得我应该搞明白但没搞明白的两个概念,原来是紧密相关的呀)。 感觉至少前三章讲基础知识时节奏还是很快的,对我这种跨领域的读者来说有点难跟上😂不过后面似乎更大篇幅是比较偏实践和应用的,可能简单一些。