从技术角度看ChatGPT的成功,是得益于在自然语言处理NLP(Natural Language Processing)领域一群工程师的工程探索,从下文我们可以看出,工程师们基于工程探索的技术路线可能有别于研究者基于理论推导的技术路线。
从技术角度解释工程师思维并不易读,我尝试从逻辑角度解释一下工程师的思维。要做一个具有人的智能的机器,首先要创建一个大脑;其次要有学习资料;然后掌握学习方法;最后考试归来。这就形成了ChatGPT的技术路线的逻辑框架。 第一步,构建大脑,工程师们认为这应该是一个通用的大脑,什么都能学习,所以工程师们选择了通用人工智能AGI(Artificial General Intelligence)的构想:AGI应该是一个大系统,系统的核心是一个与任务无关的大模型,大模型依靠大算力从海量大数据中学习人类的知识,从而形成AI智能。这就是工程师们的系统思维。
第二步,学习资料,人类知识的载体是文字和语言,所以工程师们选择了大型语言模型LLM(Large Language Model)。在这群工程师的眼里,大算力、大存储、大数据使得大模型的工程实践成为了可能,更成了工程师的“心猿意马”!随着数据越来越大,算力越来越大,模型越来越大,效果越来越好,这就是工程师们“力大砖飞”的思维。
第三步,学习方法,工程师们选择了GPT的技术路线,并坚持了下去。在当时的NLP领域,深度学习模型已经遇到瓶颈,通过增加模型层深来提升模型效果微乎其微,深度学习模型已经逐步被预训练模型所取代。在预训练模型范式下,存在BERT(Bidirectional Encoder Representations from Transformers)和GPT(Generative Pre-Training)两种技术实现方式,两者看似比较相像,但其底层逻辑的截然不同。