2024-07-18
PPO算法(Proximal Policy Optimization近端策略优化):PPO策略是一种用于解决深度强化学习问题的算法,它属于策略梯度算法的一种。
PPO算法的主要优势在于其易于部署、迭代过程中的方差较小、使用方便以及训练起来比较稳健。它通过使用新旧策略的比例来限制新策略的更新范围,使得策略梯度对过大的训练步长不太敏感,从而提高了算法的稳定性和效率。PPO算法解决了传统策略梯度方法数据利用效率低和鲁棒性差的问题,同时也简化了复杂度,相对于TRPO(Trust Region Policy Optimization)算法,PPO算法降低了计算过程的复杂性,使得其在实际应用中更加适用。
PPO算法的具体实现包括PPO-Clip和PPO-Penalty,其中PPO-Clip通过在代理目标中引入裁切方法,在实际应用中显示出更广泛的适用性。
算法详细介绍可参考【强化学习------PPO算法】:https://blog.csdn.net/niulinbiao/article/details/134081800
主要包括几个关键的步骤:1、收集数据;2、计算优势估计;3、优化目标函数;4、更新策略;5、重复步骤
环境平台:
----------------------------
NVIDIA Isaac Gym是英伟达提供的强化学习研究的高性能仿真环境。通过并行多个模型的方法在GPU上快速训练控制模型。
1. IsaacGym安装
安装环境:
Ubuntu 18.04 或是 20.04.
Python版本3.6, 3.7 or 3.8.
最低显卡驱动版本:Linux: 470
我的cuda版本:11.6
在官网下载最新的文件包Isaac Gym - Preview Release,注意需要登陆。
原文链接:https://blog.csdn.net/weixin_44061195/article/details/131830133
-------------------------------
Humanoid-Gym开源人形机器人端到端强化学习训练框架:
Humanoid-Gym是一个基于Nvidia Isaac Gym的易于使用的强化学习(RL)框架,旨在训练仿人机器人的运动技能,强调从仿真到真实世界环境的零误差转移。Humanoid-Gym 还集成了一个从 Isaac Gym 到 Mujoco 的仿真到仿真框架,允许用户在不同的物理仿真中验证训练好的策略,以确保策略的鲁棒性和通用性。
RobotEra 的 XBot-S(身高 1.2 米的仿人机器人)和 XBot-L(身高 1.65 米的仿人机器人)在真实环境中对该代码库进行了验证,实现了模拟到现实的零距离传输。
原文链接:https://blog.csdn.net/weixin_46300916/article/details/136571245