TGTGInsighttelegram intelligenceLIVE / telegram public index
Post content
Post content
使用 mmap() 之后,30B 的 LLM 只用到了不到6G内存 具体原理是:每次的调用不需要使用到所有的 weights,所以使用 lazy loading 可以大大减少内存的消耗。 https://github.com/ggerganov/llama.cpp/discussions/638?sort=top#discussioncomment-5492916