【新视野】碾压 LLaMA 的最强开源大模型居然来自阿联酋，OpenAI 和 HuggingFace 为它吵了起来

这两天 hugging face 的榜单出现了一个异数。一个名为 Falcon 40B 的模型，突然成为了 hugging face" 开源 " 大模型排行榜的第一名。

这一成绩直接将一众大咖加持的开源的模型踩在脚下，包括但不限于扎克伯格同学旗下的 LLaMA、新晋明星独角兽 Stability AI 等公司。其中，LLaMA 的模型规模甚至更大，达到了 65B ——比 Falcon-40B 大出了 50%。

【资料图】

按照国际通用惯例，网友们少不了又要拉踩一把扎克伯格。Hugging Face 过去一直被认为是大模型领域 GitHub，在人类大模型的开源事业的道路上不遗余力，被一些观察者认为是 OpenAI 最具潜在挑战能力的平台。因此 Hugging Face 的榜单，被从业者给予了很高的参考价值。

按照 Hugging Face 方面表示，其整个榜单使用 Eleuther AI Harness 的评估框架，被分成四个标准：

25 个小样本的推理逻辑测试（ARC：AI2 Reasoning Challenge）、10 个样本的尝试推理测试（HellaSwag）、5 个样本的多任务准确性测试（MMLU）以及诚实测试（TruthfulQA）

而在全部四项打分中，如图一所示，除了诚实测试表现相对一般外，其他三项都大幅领先对手。而在新推出的 instruct 版本中，诚实性能力也跟上来了。

Falcon 备受外界关注，原因主要有几点。

一方面，如果仅以这个榜单数据来看，Falcon 相比于友商的提升幅度很大。LLaMA-65B 之后的排序的分差往往在 0.3 分以内，但 Falcon-instruct 直接提升了 3.4 分。

另一方面，Falcon 与马斯克的火箭重名，但其实是目前为数不多的非西方国家实验室开发的开源大模型产品。Falcon 背后的研发方来自阿联酋的阿布扎比技术创新研究所（TII），这也是中东首个世界顶级的大模型产品。

TII 的背后则是阿布扎比先进技术研究委员会 ( ATRC ) ，因此是阿联酋政府官方扶持技术创新项目。

而根据阿联酋通讯社的报道，Falcon-45B 使用了 1 万亿个 token 进行训练，可以用更少的训练计算能力实现更优的效果，其仅相当于 OpenAI GPT-3 训练计算的 75%，DeepMind Chinchilla 人工智能的 40%，谷歌 PaLM-62B 训练计算的 80%。

阿联酋通讯社进一步表示，作为开源的大模型工具，Falcon-45B 的出现：

" 强化了阿联酋作为全球 AI 领导者的角色 "。

目前来说，Falcon-40B 虽然是开源大模型的第一名，但是和 " 不 Open" 的 OpenAI 相比，还有相当大的差距。而在越来越公司对开源保持谨慎态度的情况下，Falcon 获得 " 开源大模型第一 " 其实也算是 " 捡了个漏 "。不过很快有从业者发推特质疑 Hugging Face 的评价体系。

有 Inflection AI 员工发推认为 Hugging Face 得出的数据与论文的评分有一定的差异。在这条质疑下面，前特斯拉 AI 负责人、OpenAI 元老级人物（founding member）Andrej Karpathy 跟进评论：

" 这就是我目前避免评论 falcon 的原因 "。

Andrej Karpathy 曾经是李飞飞的高徒、全球顶尖的 AI 科学家，对 OpenAI 的发展起到了很大的作用，也一手推动了特斯拉自动驾驶项目的发展，可以说是特斯拉 autopilot 之父。

当他对 hugging face 的标准提出质疑时，这并不能被认为是一个轻飘飘的指控。

果然 hugging face 联合创始人 Thomas Wolf 闻风而至，对同行进行了友善的科普，表示他们的使用的评价工具的准确性是可靠的。这其中诡异的点在于，hugging face 的榜单不是一天发出的，Eleuther AI Harness 也是一个主流的评价体系。但当 Falcon 冲榜后，却出现了两位对评价体系 " 不理解 "、" 不确定 " 的 " 外宾 "。

看来硅谷还不是很适应来自中东的神秘科技力量，对这种 " 新鲜事物 " 条件反射地用审视的眼光去打量。

不过，Falcon-40B 最大的争议或许不是来自于能力，而是来自于其对 " 开源 " 事业的 " 诚心 "。

因为 Falcon 对商业化开源留了一个 " 后手 "，虽然使用者原则上免费，但如果收入超过 100 万美金，依然需要缴纳 10% 的授权费用。

但由于 falcon 的许可证其实部分基于 Apache License Version 2.0。后者来自 Apache 基金会，对商业开源是友好的。那如果 falcon 拿着免费开源的许可协议，未来依然会收取一定的商业化费用，这似乎依然算不上真的 " 开源 "。

大模型确实很烧钱，即便贵如中东土豪，也不希望彻底的开源。

而根据 TII 方面的消息，阿联酋方面预计将很快发布新的 Falcon-108B 的千亿级大模型。

无论是开源和闭源、西方和东方、科技投资和石油资本，届时围绕大模型的科技竞争可能会变得更有意思。

图片来源：网络