马斯克创办的xAI训练的Grok-0和Grok-1已经公布,这2个 ...

[复制链接]
tombbb 发表于 2023-11-6 15:58:43|来自:中国 | 显示全部楼层 |阅读模式
马斯克创办的xAI训练的Grok-0和Grok-1已经公布,这2个 ...
全部回复3 显示全部楼层
xinzhyu 发表于 2023-11-6 15:59:09|来自:中国 | 显示全部楼层
agou 发表于 2023-11-6 15:59:36|来自:中国 | 显示全部楼层
希望可以开源Grok-0 33B模型【狗头】
<hr/>从blog的结果上可以看到Grok-0在一些基础能力上有很有竞争力的表现,在数学和代码上都强于llama 2 70B这个模型,可以说是很有竞争力了。而Grok-1的数学,代码和推理能力都很强,完全可以成为一个构建当前众多应用的基石,可见xAI团队刚刚组建就交出了一份顶尖的作业。
值得注意的是,在blog里面还包含了未来的一些研究方向,可以看出xAI的目标也是提供更好的基础模型的服务,他们着重强调的内容如下。
Scalable oversight with tool assistance. Human feedback is essential. However, providing consistent and accurate feedback can be challenging, especially when dealing with lengthy code or complex reasoning steps. AI can assist with scalable oversight by looking up references from different sources, verifying intermediate steps with external tools, and seeking human feedback when necessary. We aim to make the most effective use of our AI tutors' time with the help of our models.
Integrating with formal verification for safety, reliability, and grounding. To create AI systems that can reason deeply about the real world, we plan to develop reasoning skills in less ambiguous and more verifiable situations. This allows us to evaluate our systems without human feedback or interaction with the real world. One major immediate goal of this approach is to give formal guarantees for code correctness, especially regarding formally verifiable aspects of AI safety.
Long-context understanding and retrieval. Training models for efficiently discovering useful knowledge in a particular context are at the heart of producing truly intelligent systems. We are working on methods that can discover and retrieve information whenever it is needed.
Adversarial robustness. Adversarial examples demonstrate that optimizers can easily exploit vulnerabilities in AI systems, both during training and serving time, causing them to make egregious mistakes. These vulnerabilities are long-standing weaknesses of deep learning models. We are particularly interested in improving the robustness of LLMs, reward models, and monitoring systems.
Multimodal capabilities. Currently, Grok doesn’t have other senses, such as vision and audio. To better assist users, we will equip Grok with these different senses that can enable broader applications, including real-time interactions and assistance.
最后想说,上面的提到的内容确实就是我最想做的东西,也十分羡慕有这样的一个团队可以向这样的目标努力。
qijian 发表于 2023-11-6 16:00:01|来自:中国 | 显示全部楼层
原文来自DataLearnerAI:


马斯克创造的新的大模型企业xAI的大模型GrokAI模型评测结果出炉~MMLU与代码评分超过ChatGPT-3.5
xAI是马斯克在2023年3月份创办的一家大模型初创企业。因为ChatGPT过于火爆,离开OpenAI之后马斯克又再次开始推出大模型,就是这个Grok。xAI今天也宣布了Grok模型的细节。其在多个知名榜单评测上的得分结果超过了ChatGPT-3.5水平。本文详细介绍一下这个模型。




  • Grok简介
  • Grok的在语义理解和数学推理的评测结果
  • Grok的在编程水平的评测结果
  • Grok的工程实践

Grok简介

Grok是一个以《银河系漫游指南》为模型的AI,旨在回答几乎所有问题,更难的是,它甚至能够建议要问什么问题!而这个建议问什么问题的功能很有可能是此前透露的SuperPrompt(参考:马斯克的X.AI平台即将发布的大模型Grōk AI有哪些能力?新消息泄露该模型支持2.5万个字符上下文!)。
目前官方宣布的Grok模型包含两个版本:
Grok版本简介参数量DataLearner模型信息卡地址
Grok-0初始版本330亿https://www.datalearner.com/ai-models/pretrained-models/Grok-0
Grok-1新版本未透露https://www.datalearner.com/ai-models/pretrained-models/Grok-1
Grok-1是一个基于自回归Transformer的模型,预训练用于执行下一个词预测。该模型随后通过人类和早期Grok-0模型的大量反馈进行了微调。最初的Grok-1具有8,192个词的上下文长度。
根据官方的消息,xAI成立之后立即开始训练Grok-0模型,这个模型参数为330亿,只用了LLaMA2一般的资源就接近了LL
aMA2-70B的水平。因此,在最近2个月,他们重新训练了一个新的模型Grok-1,这个模型没有透露参数量,但是评估结果显示它的评分超过了ChatGPT-3.5。
Grok的在语义理解和数学推理的评测结果

官方已经公布了Grok的评分,DataLearnerAI已经第一时间同步,官方公布了MMLU、GSM8K和HumanEval的评分。
在综合评测上,如下图所示:



数据来源:https://www.datalearner.com/ai-models/llm-evaluation
这里的MMLU是英文理解和通用知识相关评测,GSM8K则是 OpenAI发布的大模型数学推理能力评测基准,涵盖了8500个中学水平的高质量数学题数据集。具体评测指标解释参考:DataLearner大模型综合评测对比表!国产大模型与全球最强大模型大比拼:语义理解、数学推理同台竞技,究竟谁更厉害~

Grok的在编程水平的评测结果

Grok-1的编程水平也很好。根据官方公布的数值,Grok-1在HumanEval的评测上得分63.2,超过了GPT-3.5的48.1。
如下图所示,是DataLearnerAI编程水平排行按HumanEval排行的结果:



数据来源:https://www.datalearner.com/ai-models/llm-coding-evaluation
可以看到,除了专用代码优化的模型,Grok-1得分仅次于GPT-4,远超ChatGPT-3.5模型。不过,专用优化的编程模型从这里看也是十分强大。
关于Grok-1模型在实际应用的特点,大家参考之前的总结:马斯克的X.AI平台即将发布的大模型Grōk AI有哪些能力?新消息泄露该模型支持2.5万个字符上下文!

快速回帖

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则