理查德·萨顿 (Richard Sutton),一位图灵奖得主和强化学习的奠基人,对当前人工智能领域主流的大语言模型 (LLM) 路线提出了深刻质疑,认为我们可能走错了方向。原播客🔗:https://youtu.be/21EYKqUsPfg?si=jPg2cm0GZuk9CK6Q
以下是其核心内容的总结:
强化学习的本质:萨顿认为真正的智能来源于“经验”,而非“教导”。他所开创的强化学习是一种“试错学习”,智能体通过与环境互动、从奖励和惩罚中学习,类似于松鼠学习开坚果的过程。
《惨痛的教训》的真正含义:LLM 的支持者常引用萨顿的《惨痛的教训》来证明,通过堆积算力和数据是通往智能的正确道路。但萨顿指出,他的本意是:任何依赖“人类知识”作为主要输入的方法最终都会遇到天花板,而真正可扩展的是那些能从“经验”中直接学习的方法。他认为 LLM 正是依赖人类知识的旧路。
LLM 的核心缺陷:萨顿认为,LLM 是没有“目标”的模仿者。其核心任务是“预测下一个词”,这并不改变外部世界,也无法在真实世界中获得反馈,因此缺乏一个来自真实世界的“基准真相”(Ground Truth)。
幻觉的根源:模仿不等于理解:LLM 的“幻觉”(一本正经地胡说八道)并非仅仅因为训练数据有误,而是由于其学习本质是统计学上的“模式匹配”。它无法判断信息是否符合物理世界的真实情况,因为它从未“亲身”体验世界,只构建了一个“人类会如何描述世界”的模型,而非世界本身。
学习的本质:主动探索而非被动灌输:萨顿强调,真正的学习是主动的试错和探索(如婴儿的自我探索),而非被动的模仿或灌输。他认为监督学习和模仿学习在自然界中几乎不存在,动物学习的核心是预测和试错。
AlphaGo 的进化证明 [0009:05]: AlphaGo 从最初学习人类棋谱的版本 (AlphaGo Lee) 进化到完全不学习人类知识、仅通过自我对弈的 AlphaZero,后者以压倒性优势战胜了前者。这证明了人类知识既可以是 AI 的助推器,也可能是其天花板,抛弃人类知识能带来更强的智能。
通用智能体 (AGI) 的蓝图:萨顿设想的真正智能体应包含四个核心部件:策略 (Policy)、价值函数 (Value Function,对未来长期奖励的预测)、感知 (Perception) 和世界状态转移模型 (Transition Model of the World,关于“因果”的知识)。智能体应是主动的、面向未来的学习者。
强化学习路线的挑战:萨顿坦诚其描绘的蓝图面临“泛化”(Generalization)和“迁移”(Transfer)等巨大挑战,以及“灾难性遗忘”(Catastrophic Forgetting)问题,即学会新知识可能遗忘旧知识。
AI 继承的必然性:萨顿提出了“AI 继承”(AI Succession)的观点,认为人类社会没有统一意志、科学进步不可阻挡、智能发展不会止步于人类水平、最智能者终将获得最多资源和权力。因此,人类作为当前地球上最智能的存在,最终将把这一位置传承给更智能的 AI。
宇宙的新阶段:设计者时代:萨顿认为人类正在开启宇宙的“设计者”(Designers)时代,即智能将通过快速的、有目的的工程设计来迭代,而非缓慢的生物进化。他呼吁我们将未来的超级智能视为我们的“后代”,而非“替代者”。
技术路线之争的本质:价值观之争:争论的核心在于 AI 的价值观。强化学习范式的“奖励函数”可以被设计和塑造,以定义对人类有益的价值观。而 LLM 模仿互联网上的所有语言,其价值观天然混乱、不可预测,甚至可能是危险的。
萨顿的观点为我们敲响了警钟,提醒我们审视当前 AI 发展路线的潜在缺陷,并思考我们想要创造一个怎样的智能未来。
– 欢迎follow 我的推特: @kingluffywang
– 加入油管的会员:https://www.youtube.com/channel/UCmajVvuOjspOA9WtJGquDHA/join
-制作ppt工具Gamma:https://try.gamma.app/f51e7j4btgcq
-Perpleixy AI 优惠链接:https://perplexity.ai/pro?referral_code=DZQYQQSQ
– 请我喝杯咖啡: https://www.buymeacoffee.com/luffywang
– 微博:北美王路飞