🤖 roboto_origin_03 Wiki
首页 / RSL-RL

📚 RSL-RL

RSL-RL 训练库 (PPO) · 共 21 篇

快速上手

  1. 项目概述与核心价值Beginner
  2. 快速开始与安装配置Beginner
  3. 配置文件与参数体系Beginner
  4. 向量化环境接入指南Intermediate

深入原理

核心算法
  1. PPO 算法实现与训练流程Intermediate
  2. AMP 对抗动作先验算法Advanced
  3. 策略蒸馏与师生框架Intermediate
策略网络架构
  1. Actor-Critic 基础架构设计Intermediate
  2. 循环与注意力策略变体Advanced
  3. CNN 观测编码与特征提取Intermediate
数据与存储
  1. Rollout 数据存储与 TransitionIntermediate
  2. 经验采样与小批量生成Intermediate
训练基础设施
  1. 训练运行器生命周期管理Intermediate
  2. 向量化环境抽象接口Intermediate
  3. 多 GPU 分布式训练机制Advanced
高级训练特性
  1. 对称性增强与镜像损失Advanced
  2. RND 随机网络蒸馏探索Advanced
  3. 自适应学习率与 KL 调度Intermediate
工具与监控
  1. 日志系统与可视化集成Beginner
  2. 模型保存、加载与推理部署Intermediate
  3. 观测归一化与网络工具函数Intermediate