littlebot
Published on 2025-04-17 / 1 Visits
0

【源码】基于PaddlePaddle和PARL框架的LunarLanderv2控制项目

项目简介

本项目是百度强化学习7天打卡营的终极复现项目。针对二星环境 - Box2D(LunarLander - v2),项目旨在使月球着陆器稳稳停在指定区域。通过采用DQN算法,借助PaddlePaddle和PARL框架,训练模型以实现对月球着陆器的有效控制。

项目的主要特性和功能

  1. 环境配置:依赖numpy、gym、matplotlib、paddlepaddle、parl1.3.1和box2d - py库。
  2. 模型训练:使用DQN算法,在LunarLander_train.py中进行模型训练,实时绘制train_reward曲线,每训练50个episode进行10次测试并开启显示渲染。
  3. 模型评估:通过evaluate.py测试模型,运行100个episode,实时绘制得分散点图,统计通关百分比(得分大于200即通关)。
  4. 训练策略:分两个阶段训练,Stage1以较大学习率和batchsize训练,Stage2对Stage1保存的模型减小学习率和探索概率、增大经验回放池容量继续训练。
  5. 结果展示:在/modeldir保存模型参数和得分散点图,/modeldir/modelPerformance.ods统计各模型得分值和通关率,output.gif展示模型运行结果。

安装使用步骤

前提条件

用户已下载本项目的源码文件,且已安装Python 3.x环境。

安装依赖

使用以下命令安装所需库: bash pip install numpy gym matplotlib paddlepaddle parl1.3.1 box2d-py

运行项目

  1. 训练模型:运行LunarLander_train.py,开始模型训练。 bash python LunarLander_train.py
  2. 评估模型:运行evaluate.py,对训练好的模型进行评估。 bash python evaluate.py

下载地址

点击下载 【提取码: 4003】【解压密码: www.makuang.net】