18浏览
查看: 18|回复: 0

[教程] 机器学习_RL强化学习_01:了解强化学习

[复制链接]
本帖最后由 Anders项勇 于 2025-9-5 17:46 编辑

这两年人形机器人很火爆,几乎最前沿的计算机技术都汇集到人形机器人上。最近想着系统学习机器人知识,并同时做一些记录,学习最好的方法就是实践。

需要学习的知识大概列了下:
RL强化学习--IL模仿学习--LLM大模型
ROS2
机器人硬件
sim2real机器人部署
控制论与机器人学基础
数学知识(高数、线代、概率论与数理统计)
编程语言基础(c++、python)
深度学习框架(pytroch、tensorflow)

强化学习、模仿学习、大模型的关键发展时间线
‌1. 强化学习(Reinforcement Learning, RL)‌

    ‌1950年代‌:心理学行为主义(如斯金纳的操作性条件反射)为RL奠定理论基础‌。
    ‌1957年‌:贝尔曼提出动态规划方法,首次将马尔可夫决策过程(MDP)形式化,成为RL的核心框架‌。
    ‌1989年‌:Watkins提出Q学习算法,奠定现代RL的基础‌。
    ‌2013年‌:DeepMind首次将深度神经网络与RL结合(DQN),推动深度强化学习爆发‌。

‌2. 模仿学习(Imitation Learning, IL)‌

    ‌1960年代‌:早期行为克隆(Behavior Cloning)方法出现,通过直接复制专家动作学习策略。
    ‌2002年‌:Abbeel等人提出“逆强化学习”(Inverse RL),从专家数据中推断奖励函数,扩展了模仿学习的理论框架‌。

‌3. 大模型(Large Language Models, LLMs)‌

    ‌1950年代‌:人工智能学科诞生,早期神经网络(如感知机)探索开始‌。
    ‌2017年‌:Transformer架构提出,奠定大语言模型(LLM)的技术基础‌。
    ‌2020年‌:OpenAI发布GPT-3(1750亿参数),标志大模型进入实用化阶段‌。
    ‌2022年‌:ChatGPT问世,推动大模型在自然语言处理领域的爆发式发展‌。

‌关系总结‌

    ‌强化学习‌与‌模仿学习‌早期独立发展,但近年通过逆强化学习等技术融合‌。
    ‌大模型‌依赖深度学习(2010s后成熟),而RL/IL为其提供决策优化和预训练方法‌
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

为本项目制作心愿单
购买心愿单
心愿单 编辑
[[wsData.name]]

硬件清单

  • [[d.name]]
btnicon
我也要做!
点击进入购买页面
上海智位机器人股份有限公司 沪ICP备09038501号-4 备案 沪公网安备31011502402448

© 2013-2025 Comsenz Inc. Powered by Discuz! X3.4 Licensed

mail