模型名称 | Grok-1 |
开发公司 | xAI (由埃隆·马斯克旗下) |
开源协议 | Apache 2.0 |
模型架构 | 混合专家模型 (Mixed Expert Model, MoE) |
总参数量 | 3140亿 (314B) |
激活参数量 | 86B (当处理Token时,激活两个专家) |
专家模型数量 | 8个专家 (Experts) |
编程语言 | Rust |
深度学习框架 | JAX |
预训练阶段 | 2023年10月 |
模型权重文件大小 | 接近300GB (通过磁力链接提供) |
运行要求 | 需要有足够GPU和内存的机器才能运行 |
性能基准测试 | GSM8k、MMLU、HumanEval、MATH |
性能基准测试结果 | 在多个基准测试中,Grok-1超越了同类别的其他模型,包括GPT-3.5 |
特别之处 | 具有幽默感和反叛精神,能够回答其他AI系统拒绝回答的争议性问题 |
知识更新 | 通过联网获取实时信息,包括X平台上的信息 |
用途 | 旨在帮助人类理解世界,回答问题,并提出问题 |
法律与道德 | 旨在遵守法律,为不同背景和政治观点的人提供有用的AI工具 |
研究与创新 | 作为研究助理,帮助快速获取相关信息,处理数据,产生新想法 |
技术细节解释者 | Andrew Kean Gao (斯坦福大学),Ethan He (英伟达AI科学家) |
模型特点 | 采用旋转的embedding方式,窗口长度为8192tokens,精度为bf16 |
Tokenizer vocab大小 | 131072 (接近GPT-4) |
隐藏层大小 | 32768 |
Transformer层数 | 64,每层包含多头注意力块和密集块 |
多头注意力块中头的数量 | 查询48个,键值对8个,键值对大小为128 |
密集块扩展因子 | 8,隐藏层大小为32768 |
官方GitHub仓库标星数 | 4.5k (消息发布时) |
模型训练时间 | 2个月 |
模型迭代历史 | 从33亿参数的Grok-0原型开始,到Grok-1的显著改进 |
模型性能评估 | 在HumanEval编码任务上达到63.2%,在MMLU上达到73% |
匈牙利国家高中数学考试 | Grok-1获得C级 (59%),而GPT-4获得B级 (68%) |