项目简介
本项目是百度强化学习7天打卡营的终极复现项目。针对二星环境 - Box2D(LunarLander - v2),项目旨在使月球着陆器稳稳停在指定区域。通过采用DQN算法,借助PaddlePaddle和PARL框架,训练模型以实现对月球着陆器的有效控制。
项目的主要特性和功能
- 环境配置:依赖numpy、gym、matplotlib、paddlepaddle、parl1.3.1和box2d - py库。
- 模型训练:使用DQN算法,在
LunarLander_train.py
中进行模型训练,实时绘制train_reward曲线,每训练50个episode进行10次测试并开启显示渲染。 - 模型评估:通过
evaluate.py
测试模型,运行100个episode,实时绘制得分散点图,统计通关百分比(得分大于200即通关)。 - 训练策略:分两个阶段训练,Stage1以较大学习率和batchsize训练,Stage2对Stage1保存的模型减小学习率和探索概率、增大经验回放池容量继续训练。
- 结果展示:在
/modeldir
保存模型参数和得分散点图,/modeldir/modelPerformance.ods
统计各模型得分值和通关率,output.gif
展示模型运行结果。
安装使用步骤
前提条件
用户已下载本项目的源码文件,且已安装Python 3.x环境。
安装依赖
使用以下命令安装所需库:
bash
pip install numpy gym matplotlib paddlepaddle parl1.3.1 box2d-py
运行项目
- 训练模型:运行
LunarLander_train.py
,开始模型训练。bash python LunarLander_train.py
- 评估模型:运行
evaluate.py
,对训练好的模型进行评估。bash python evaluate.py
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】