18| 0
|
[教程] 机器学习_RL强化学习_01:了解强化学习 |
本帖最后由 Anders项勇 于 2025-9-5 17:46 编辑 这两年人形机器人很火爆,几乎最前沿的计算机技术都汇集到人形机器人上。最近想着系统学习机器人知识,并同时做一些记录,学习最好的方法就是实践。 需要学习的知识大概列了下: RL强化学习--IL模仿学习--LLM大模型 ROS2 机器人硬件 sim2real机器人部署 控制论与机器人学基础 数学知识(高数、线代、概率论与数理统计) 编程语言基础(c++、python) 深度学习框架(pytroch、tensorflow) 强化学习、模仿学习、大模型的关键发展时间线 1. 强化学习(Reinforcement Learning, RL) 1950年代:心理学行为主义(如斯金纳的操作性条件反射)为RL奠定理论基础。 1957年:贝尔曼提出动态规划方法,首次将马尔可夫决策过程(MDP)形式化,成为RL的核心框架。 1989年:Watkins提出Q学习算法,奠定现代RL的基础。 2013年:DeepMind首次将深度神经网络与RL结合(DQN),推动深度强化学习爆发。 2. 模仿学习(Imitation Learning, IL) 1960年代:早期行为克隆(Behavior Cloning)方法出现,通过直接复制专家动作学习策略。 2002年:Abbeel等人提出“逆强化学习”(Inverse RL),从专家数据中推断奖励函数,扩展了模仿学习的理论框架。 3. 大模型(Large Language Models, LLMs) 1950年代:人工智能学科诞生,早期神经网络(如感知机)探索开始。 2017年:Transformer架构提出,奠定大语言模型(LLM)的技术基础。 2020年:OpenAI发布GPT-3(1750亿参数),标志大模型进入实用化阶段。 2022年:ChatGPT问世,推动大模型在自然语言处理领域的爆发式发展。 关系总结 强化学习与模仿学习早期独立发展,但近年通过逆强化学习等技术融合。 大模型依赖深度学习(2010s后成熟),而RL/IL为其提供决策优化和预训练方法 |
© 2013-2025 Comsenz Inc. Powered by Discuz! X3.4 Licensed