Grok-1,一款由马斯克旗下的人工智能初创公司 xAI 所开发的大型语言模型,采用了混合专家(MoE)模型结构,并拥有着3140亿参数的庞大规模,使其成为当前开源大型语言模型中参数量最为庞大的一员。在其开发和训练过程中,xAI 公司遵循了开源的理念,已公布了其权重和网络架构,并依据Apache 2.0许可条款,允许用户在个人和商业领域自由使用、修改和分发该模型。

Grok-1模型基本信息

根据xAI官方的模型介绍(https://x.ai/model-card/),Grok-1的信息如下:

项目详细信息
模型细节Grok-1是一个基于Transformer的自回归模型,预训练用于下一个token预测。该模型通过来自人类和早期Grok-0模型的广泛反馈进行了微调。初始版本的Grok-1具有8192个token的上下文长度,并在2023年11月发布。
预期用途Grok-1旨在用作Grok聊天机器人背后的引擎,用于包括问答、信息检索、创意写作和编码辅助在内的自然语言处理任务。
局限性虽然Grok-1在信息处理方面表现出色,但是需要人类审查Grok-1的工作以确保准确性。Grok-1语言模型没有能力独立搜索网络。在Grok中部署时,搜索工具和数据库增强了模型的能力和事实性。即使在访问外部信息源的情况下,模型仍然可能产生幻觉。
训练数据Grok-1发布版本使用的训练数据来自截至2023年第三季度的互联网和xAI的AI训练人员提供的数据。
评估Grok-1在一系列推理基准任务和精选的外国数学考试问题上进行了评估。xAI已与早期alpha测试者接触,评估了包括对抗性测试在内的Grok-1版本。xAI正在通过Grok早期访问扩大我们的早期采用者范围,以便进行封闭beta测试。

Grok-1的技术细节

  • 基础模型和训练:Grok-1是基于大量文本数据进行训练的,没有针对任何具体任务进行微调。这意味着它是一个通用的语言模型,可以应用于多种不同的自然语言处理任务。它的训练从头开始,使用JAX库和Rust语言组成的自定义训练堆栈。
  • 参数数量:Grok-1拥有3140亿个参数,是目前参数量最大的开源大语言模型。这些参数在给定token上的激活权重为25%,表明了模型的规模和复杂性。
  • 混合专家模型(MoE):Grok-1采用了混合专家系统的设计,这是一种将多个专家网络(expert networks)结合起来的方法,以提高模型的效率和性能。在Grok-1中,每个token从8个专家中选择2个进行处理。
  • 激活参数:Grok-1的激活参数数量为860亿,这比Llama-2的70B参数还要多,表明其在处理语言任务时的潜在能力。
  • 嵌入和位置嵌入:Grok-1使用旋转嵌入而非固定位置嵌入,这是一种处理序列数据的方法,可以提高模型处理长文本的能力。Tokenizer词汇大小为131,072,类似于GPT-4,嵌入大小为6,144。
  • Transformer层:模型包含64个Transformer层,每层都包含一个解码器层,由多头注意力块和密集块组成。多头注意力块有48个头用于查询,8个头用于键/值(KV),KV大小为128。密集块(密集前馈块)的加宽因子为8,隐藏层大小为32,768。
  • 量化:Grok-1还提供了一些权重的8bit量化内容,这有助于减少模型的存储和计算需求,使其更适合在资源有限的环境中运行。
  • 运行要求:由于Grok-1是一个规模较大的模型(314B参数),因此需要有足够的GPU内存的机器才能运行。据估计,可能需要一台拥有628GB GPU内存的机器(每个参数2字节)。

By 康康