littlebot

Published on 2025-04-17 / 1 Visits

0

【源码】基于PaddlePaddle和PARL框架的LunarLanderv2控制项目

项目简介

本项目是百度强化学习7天打卡营的终极复现项目。针对二星环境 - Box2D(LunarLander - v2)，项目旨在使月球着陆器稳稳停在指定区域。通过采用DQN算法，借助PaddlePaddle和PARL框架，训练模型以实现对月球着陆器的有效控制。

项目的主要特性和功能

环境配置：依赖numpy、gym、matplotlib、paddlepaddle、parl1.3.1和box2d - py库。
模型训练：使用DQN算法，在LunarLander_train.py中进行模型训练，实时绘制train_reward曲线，每训练50个episode进行10次测试并开启显示渲染。
模型评估：通过evaluate.py测试模型，运行100个episode，实时绘制得分散点图，统计通关百分比（得分大于200即通关）。
训练策略：分两个阶段训练，Stage1以较大学习率和batchsize训练，Stage2对Stage1保存的模型减小学习率和探索概率、增大经验回放池容量继续训练。
结果展示：在/modeldir保存模型参数和得分散点图，/modeldir/modelPerformance.ods统计各模型得分值和通关率，output.gif展示模型运行结果。

安装使用步骤

前提条件

用户已下载本项目的源码文件，且已安装Python 3.x环境。

安装依赖

使用以下命令安装所需库： bash pip install numpy gym matplotlib paddlepaddle parl1.3.1 box2d-py

运行项目

训练模型：运行LunarLander_train.py，开始模型训练。 bash python LunarLander_train.py
评估模型：运行evaluate.py，对训练好的模型进行评估。 bash python evaluate.py

下载地址

点击下载 【提取码: 4003】【解压密码: www.makuang.net】