项目简介
本项目基于Python框架,借助强化学习算法(如DDPG、TD3等),训练多个智能体在多智能体环境中协同完成特定任务。项目涵盖多智能体环境构建、智能体策略定义、经验回放缓冲区及环境封装等关键组件,为多智能体系统的研究与开发提供基础框架和工具。
项目的主要特性和功能
- 多智能体环境构建:基于Mujoco物理引擎,支持“HalfCheetah-v2”“Ant-v2”等多种任务。
- 智能体策略定义:定义DDPG和TD3两种智能体策略,用于处理与环境交互的动作选择。
- 经验回放缓冲区:存储和加载智能体与环境交互的经验数据,为机器学习模型训练提供数据。
- 环境封装:提供向量环境(VecEnv)封装,支持多智能体环境并行运行,提升训练效率。
- 策略提取与聚类:使用CVAE对数据集编码,通过DBSCAN对隐藏变量聚类,提取离散合作策略,助于智能体利用混杂数据集训练正确合作策略。
安装使用步骤
环境准备
确保已安装Python 3.6及以上版本,并安装numpy
、torch
、gym
等必要库。
安装项目依赖
使用以下命令安装项目依赖:
bash
pip install -e envs/multiagent-particle-envs
pip install seaborn
pip install baselines
pip install gym==0.9.4
下载数据集
根据项目需求,通过百度网盘等途径下载并配置所需的数据集。
训练模型
使用以下命令训练模型:
bash
python main.py --env_id <ENVIRONMENT_NAME> --data_type <DATA_TYPE> --seed <SEED> --omar 1
其中,<ENVIRONMENT_NAME>
可选simple_spread
、tag
、world
或HalfCheetah-v2
,<DATA_TYPE>
可选random
、medium-replay
、medium
或expert
。
运行和测试
使用训练好的模型在环境中运行和测试,观察智能体的表现和行为。
注意事项
- 项目中的
multiagent
和mujoco
部分依赖特定库和设置,可能需额外安装和配置。 - 训练时需加上
data_0
(随机样本)作为负样本。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】