LLM 发展历程
第一阶段
最开始出现在人们眼前的并非 GPT-3,而是更早的 BERT(2018)、GPT(2018)和 GPT-2(2019)。
但 GPT-3 (2020)确实是第一个展现出惊人能力的大规模语言模型。
那个时候大家把它当做聊天助手玩儿,
玩儿着玩儿着,感觉不对劲了,
开始发现这东西有点儿牛逼,好像跟若干年前的"人工智障"不一样了。
但随着玩儿的人多了,玩儿的深了,发现这玩意儿也有局限性,比如:
有问必答,即使不确定也会给出答案
输出不稳定,相同输入可能得到不同结果
回答不准确,容易产生幻觉(hallucination)
需要海量训练数据和计算资源
但这些并不妨碍它成为里程碑式的产品。
有局限性,就有解决局限性的需求,于是,催生出了两个方向的优化:
优化模型本身
优化模型使用方式
第二阶段
优化模型本身还能再拆:
架构优化:MoE(Mixture of Experts)架构、Transformer 变体
训练优化:RLHF(基于人类反馈的强化学习)、CoT(思维链)训练、指令微调(Instruction Tuning)
优化模型使用方式也能再拆:
Prompt Engineering
Fine-tuning 和 LoRA 等参数高效微调方法
也就有了很长一段时间的主基调:
大厂卷参数、模型
中小厂卷 fine-tuning
个人卷 prompt engineering
还真别说,这玩意儿还真就卷起来了,输出稳定多了,用法也多样化了,人们慢慢开始意识到,大模型更像一个饱读经书的学者,而
大厂不断产出更牛逼的学者
中小厂教会学者业务
个人让学者掌握自己的方法论、SOP
第三阶段
大模型接触到外部数据了,联网、数据库、PDF、Word 文档、图片、视频...啥都行。借助实时数据,大模型有如神助,这条路走对了:大模型的核心在于快速吸收、整理总结、归纳提炼、解决问题的能力,而不是仅仅基于训练数据的"高级聊天机器人"。客观讲,它是工具;哲学点儿,它就是助理、agent的概念被人们第一次搬上台面。与此同时就是基于外部数据库的 RAG 架构,让大模型高效、高质检索外部数据。回看模型本身,从原来的区区 2048 个 context 长度,卷到 32k、128k、256k...无不是冲着让模型更好的 RAG 去的。
第四阶段
结合 fine-tuning、prompt engineering 和 RAG 的技术积累,Agent 范式逐渐成型。
通过系统化训练和 CoT(思维链)推理,Agent 能够理解任务、检索信息、分析整合、规划方案。
随着 Function Calling 能力的加入,Agent 获得了调用外部工具的能力,
这让它们能够执行更复杂的任务链和自动化流程。