机器强化学习PPO算法(Proximal Policy Optimization近端策略优化)
艾易欧科技 机器人ieoBot

2024-07-18

PPO算法(Proximal Policy Optimization近端策略优化):PPO策略是一种用于解决深度强化学习问题的算法,‌它属于策略梯度算法的一种。‌


PPO算法的主要优势在于其易于部署、‌迭代过程中的方差较小、‌使用方便以及训练起来比较稳健。‌它通过使用新旧策略的比例来限制新策略的更新范围,‌使得策略梯度对过大的训练步长不太敏感,‌从而提高了算法的稳定性和效率。‌PPO算法解决了传统策略梯度方法数据利用效率低和鲁棒性差的问题,‌同时也简化了复杂度,‌相对于TRPO(‌Trust Region Policy Optimization)‌算法,‌PPO算法降低了计算过程的复杂性,‌使得其在实际应用中更加适用。‌

PPO算法的具体实现包括PPO-Clip和PPO-Penalty,‌其中PPO-Clip通过在代理目标中引入裁切方法,‌在实际应用中显示出更广泛的适用性。‌

算法详细介绍可参考【强化学习------PPO算法】:https://blog.csdn.net/niulinbiao/article/details/134081800

 

主要包括几个关键的步骤:1、收集数据;2、计算优势估计;3、优化目标函数;4、更新策略;5、重复步骤

 

环境平台:

----------------------------

NVIDIA Isaac Gym是英伟达提供的强化学习研究的高性能仿真环境。通过并行多个模型的方法在GPU上快速训练控制模型。

1. IsaacGym安装
安装环境:
Ubuntu 18.04 或是 20.04.

Python版本3.6, 3.7 or 3.8.

最低显卡驱动版本:Linux: 470
我的cuda版本:11.6

在官网下载最新的文件包Isaac Gym - Preview Release,注意需要登陆。

                        
原文链接:https://blog.csdn.net/weixin_44061195/article/details/131830133

-------------------------------

Humanoid-Gym开源人形机器人端到端强化学习训练框架:

Humanoid-Gym是一个基于Nvidia Isaac Gym的易于使用的强化学习(RL)框架,旨在训练仿人机器人的运动技能,强调从仿真到真实世界环境的零误差转移。Humanoid-Gym 还集成了一个从 Isaac Gym 到 Mujoco 的仿真到仿真框架,允许用户在不同的物理仿真中验证训练好的策略,以确保策略的鲁棒性和通用性。

RobotEra 的 XBot-S(身高 1.2 米的仿人机器人)和 XBot-L(身高 1.65 米的仿人机器人)在真实环境中对该代码库进行了验证,实现了模拟到现实的零距离传输。                        

原文链接:https://blog.csdn.net/weixin_46300916/article/details/136571245

 

 

Copyright © 深圳市艾易欧科技有限公司 All rights reserved.

 

粤ICP备14038518号