Grok-1开源模型参数表（大全）

By 康康 2024-3-18

我用GPT4整理了一份Grok的参数

参数类别	描述
模型名称	Grok-1
开发公司	xAI (由埃隆·马斯克旗下)
开源协议	Apache 2.0
模型架构	混合专家模型 (Mixed Expert Model, MoE)
总参数量	3140亿 (314B)
激活参数量	86B (当处理Token时，激活两个专家)
专家模型数量	8个专家 (Experts)
编程语言	Rust
深度学习框架	JAX
预训练阶段	2023年10月
模型权重文件大小	接近300GB (通过磁力链接提供)
运行要求	需要有足够GPU和内存的机器才能运行
性能基准测试	GSM8k、MMLU、HumanEval、MATH
性能基准测试结果	在多个基准测试中，Grok-1超越了同类别的其他模型，包括GPT-3.5
特别之处	具有幽默感和反叛精神，能够回答其他AI系统拒绝回答的争议性问题
知识更新	通过联网获取实时信息，包括X平台上的信息
用途	旨在帮助人类理解世界，回答问题，并提出问题
法律与道德	旨在遵守法律，为不同背景和政治观点的人提供有用的AI工具
研究与创新	作为研究助理，帮助快速获取相关信息，处理数据，产生新想法
技术细节解释者	Andrew Kean Gao (斯坦福大学)，Ethan He (英伟达AI科学家)
模型特点	采用旋转的embedding方式，窗口长度为8192tokens，精度为bf16
Tokenizer vocab大小	131072 (接近GPT-4)
隐藏层大小	32768
Transformer层数	64，每层包含多头注意力块和密集块
多头注意力块中头的数量	查询48个，键值对8个，键值对大小为128
密集块扩展因子	8，隐藏层大小为32768
官方GitHub仓库标星数	4.5k (消息发布时)
模型训练时间	2个月
模型迭代历史	从33亿参数的Grok-0原型开始，到Grok-1的显著改进
模型性能评估	在HumanEval编码任务上达到63.2%，在MMLU上达到73%
匈牙利国家高中数学考试	Grok-1获得C级 (59%)，而GPT-4获得B级 (68%)

By 康康

马斯克推出超GPT-4参数的开源AI模型Grok-1：3140亿参数颠覆自然语言处理界

康康 2024-3-25

Grok-1技术参数/运行环境/汇总

康康 2024-3-18

Grok-1主要参数

参数	描述
模型名称	Grok-1
开发公司	xAI (由埃隆·马斯克旗下)
开源协议	Apache 2.0
模型架构	混合专家模型 (Mixed Expert Model, MoE)
总参数量	3140亿 (314B)
激活参数量	86B (当处理Token时，激活两个专家)
专家模型数量	8个专家 (Experts)
编程语言	Rust
深度学习框架	JAX
知识日期	2023年10月
模型大小	296GB
运行要求	628G显存 8卡H100
隐藏层大小	32768
Transformer层数	64，每层包含多头注意力块和密集块
模型训练时间	2个月

埃隆·马斯克支持开源大模型运动

我把Grok-1部署运行起来啦！

B站大神Grok-1源码解读第二期

B站大神Grok-1源码解读第一期