Post content
Daily Productive Sharing 928 - Infrastructure of OpenAI 随着 ChatGPT 的流行,OpenAI 面临的工程挑战也越来越多。Gergely Orosz 邀请了 OpenAI 的应用工程主管 Evan Morikawa 介绍了他们的最佳实践,其中不少与传统的最佳实践完全不一样: 1 向 ChatGPT 提问后,系统会把提问拆解成 token,然后转换成 embedding,乘以模型的权重之后,然后获得预测值; 2 ChatGPT 底层使用 transformer 架构,使用了 self-attention 机制,又一个致命问题,就是 self-attention 的计算是呈平方增长的; 3 他们将预测问题当作一个 QKV 的模型来处理,Q 指用户的输入,K是用来输出预测值的输入,V 是预测值,其中 K 和 V 可以被缓存,而 Q 无法被缓存; 4 先在最大的硬件瓶颈在于显存大小,即使最先进的 GPU - H100 也有显存瓶颈,而它的架构设计早就在多年前就确定了,短时间也无法更改; 5 当然显卡是跟广义上的短缺问题,好在他们有微软 Azure 的支持,所以可以调用一切闲置的显卡资源。这也就意味着,从第一天开始,他们的服务器调度设计就是全球调度; 6 因为最大的计算瓶颈在于显卡,所以服务器的物理位置就没那么重要,edge computing 在这里也就无所谈起了; 7 监测 GPU 使用率其实没有多少用,因为 GPU 的计算机制和 CPU 完全不一样,看这个使用率只能告诉我们 GPU 是否在计算,无法提供更多细节。 https://letters.acacess.com/daily-productive-sharing-928/