George Hotz 爆料 GPT-4 由 8 个 MoE 模型组成

2023-06-26 11:59:58

来源：36Kr快讯

【资料图】

据报道，美国知名骇客George Hotz在接受采访时透露，GPT-4由8个220B模型组成。就连PyTorch的创建者Soumith Chintala对此也深信不疑。GPT-4：8 x 220B专家模型用不同的数据/任务分布和16-iter推理进行训练。如果真是这样的话，GPT-4的训练可能更加有效。

George说是八个模型推理十六次，应该是每个模型都参与了推理。所以不可能是猜想三路由到不同的模型。

令人失望的是Open AI没有做出路线上的重大突破，而只是技术上的一些突破，跟很多人的预期完全不一致，和MOE架构本身能不能在未来继续提升表现关系不大，同一个模型训8 次的信息，搞得应该不是这样的。而且做16次 inference 的做法显然说明省 inference 不是非常前位的目的。

但至少两个 high profile 的人都出来说是8x 220B on different data，基本上说明了主架构不是 sparse activation 的 router 类的 moe，而可能是 parallel inference 然后 ensemble 或者 vote 之类的。

万一不是MoE而是别的啥黑科技大火箭，现在大家相信是了MoE，结果全部走上了弯道，OpenAI雄霸数十载。

如果再用这个混合集合生成的数据去喂新的base，再反复迭代持续，后面的效果会越来越好，提升空间很大，而且方便扩展和持续迭代。

类似当年围棋实现AI和AI下棋，不断迭代，人类就彻底赶不上了。

关键词：