TGTGInsighttelegram intelligenceLIVE / telegram public index
← VmShell VPS Channel
VmShell VPS Channel avatar

TGINSIGHT POST

Post #1420

@vmshell

VmShell VPS Channel

Views1,240帖子阅读量
发布3月18日2024/03/18 11:13
Post content

帖子内容

马斯克宣布正式开源大语言模型Grok,等各种官宣”自主研发” 马斯克承诺的开源版大模型 Grok 终于来了! 今天凌晨,马斯克旗下大模型公司 xAI 宣布正式开源 3140 亿参数的混合专家(MoE)模型「Grok-1」,以及该模型的权重和网络架构。 这也使得Grok-1成为当前参数量最大的开源大语言模型。 封面图根据 Grok 提示使用 Midjourney 生成的:神经网络的 3D 插图,具有透明节点和发光连接,以不同粗细和颜色的连接线展示不同的权重。 这个时候,马斯克当然不会忘了嘲讽 OpenAI 一番,「我们想了解更多 OpenAI 的开放部分」。 回到模型本身,Grok-1 从头开始训练,并且没有针对任何特定应用(如对话)进行微调。相对的,在 X(原 Twitter)上可用的 Grok 大模型是微调过的版本,其行为和原始权重版本并不相同。 Grok-1 的模型细节包括如下: 基础模型基于大量文本数据进行训练,没有针对任何具体任务进行微调; 3140 亿参数的 MoE 模型,在给定 token 上的激活权重为 25%; 2023 年 10 月,xAI 使用 JAX 库和 Rust 语言组成的自定义训练堆栈从头开始训练。 xAI 遵守 Apache 2.0 许可证来开源 Grok-1 的权重和架构。Apache 2.0 许可证允许用户自由地使用、修改和分发软件,无论是个人还是商业用途。项目发布短短四个小时,已经揽获… https://linuxword.com/?p=34167