机器学习_RL强化学习_01:了解强化学习
本帖最后由 Anders项勇 于 2025-9-5 17:46 编辑这两年人形机器人很火爆,几乎最前沿的计算机技术都汇集到人形机器人上。最近想着系统学习机器人知识,并同时做一些记录,学习最好的方法就是实践。
需要学习的知识大概列了下:
RL强化学习--IL模仿学习--LLM大模型
ROS2
机器人硬件
sim2real机器人部署
控制论与机器人学基础
数学知识(高数、线代、概率论与数理统计)
编程语言基础(c++、python)
深度学习框架(pytroch、tensorflow)
强化学习、模仿学习、大模型的关键发展时间线
1. 强化学习(Reinforcement Learning, RL)
1950年代:心理学行为主义(如斯金纳的操作性条件反射)为RL奠定理论基础。
1957年:贝尔曼提出动态规划方法,首次将马尔可夫决策过程(MDP)形式化,成为RL的核心框架。
1989年:Watkins提出Q学习算法,奠定现代RL的基础。
2013年:DeepMind首次将深度神经网络与RL结合(DQN),推动深度强化学习爆发。
2. 模仿学习(Imitation Learning, IL)
1960年代:早期行为克隆(Behavior Cloning)方法出现,通过直接复制专家动作学习策略。
2002年:Abbeel等人提出“逆强化学习”(Inverse RL),从专家数据中推断奖励函数,扩展了模仿学习的理论框架。
3. 大模型(Large Language Models, LLMs)
1950年代:人工智能学科诞生,早期神经网络(如感知机)探索开始。
2017年:Transformer架构提出,奠定大语言模型(LLM)的技术基础。
2020年:OpenAI发布GPT-3(1750亿参数),标志大模型进入实用化阶段。
2022年:ChatGPT问世,推动大模型在自然语言处理领域的爆发式发展。
关系总结
强化学习与模仿学习早期独立发展,但近年通过逆强化学习等技术融合。
大模型依赖深度学习(2010s后成熟),而RL/IL为其提供决策优化和预训练方法
页:
[1]