我用GPT4整理了一份Grok的参数

参数类别描述
模型名称Grok-1
开发公司xAI (由埃隆·马斯克旗下)
开源协议Apache 2.0
模型架构混合专家模型 (Mixed Expert Model, MoE)
总参数量3140亿 (314B)
激活参数量86B (当处理Token时,激活两个专家)
专家模型数量8个专家 (Experts)
编程语言Rust
深度学习框架JAX
预训练阶段2023年10月
模型权重文件大小接近300GB (通过磁力链接提供)
运行要求需要有足够GPU和内存的机器才能运行
性能基准测试GSM8k、MMLU、HumanEval、MATH
性能基准测试结果在多个基准测试中,Grok-1超越了同类别的其他模型,包括GPT-3.5
特别之处具有幽默感和反叛精神,能够回答其他AI系统拒绝回答的争议性问题
知识更新通过联网获取实时信息,包括X平台上的信息
用途旨在帮助人类理解世界,回答问题,并提出问题
法律与道德旨在遵守法律,为不同背景和政治观点的人提供有用的AI工具
研究与创新作为研究助理,帮助快速获取相关信息,处理数据,产生新想法
技术细节解释者Andrew Kean Gao (斯坦福大学),Ethan He (英伟达AI科学家)
模型特点采用旋转的embedding方式,窗口长度为8192tokens,精度为bf16
Tokenizer vocab大小131072 (接近GPT-4)
隐藏层大小32768
Transformer层数64,每层包含多头注意力块和密集块
多头注意力块中头的数量查询48个,键值对8个,键值对大小为128
密集块扩展因子8,隐藏层大小为32768
官方GitHub仓库标星数4.5k (消息发布时)
模型训练时间2个月
模型迭代历史从33亿参数的Grok-0原型开始,到Grok-1的显著改进
模型性能评估在HumanEval编码任务上达到63.2%,在MMLU上达到73%
匈牙利国家高中数学考试Grok-1获得C级 (59%),而GPT-4获得B级 (68%)

By 康康