Gymnasiumを使ってみる　その１（環境構築、サンプルコードの実行）

2025年6月17日 2025年6月17日

管理人

はじめに

　今回はGymnasiumという、強化学習を行うためのソフトウェアを試してみました。

　元々OpenAIのGymというソフトウェアがあるのは知っていたのですが、実行できないことがありました。調べてみると、2021年にGymnasiumに移行することになったようです。

▼GymのGitHubのリポジトリには、Gymnasiumに移行すると書かれています。

https://github.com/openai/gym

▼以下の書籍を読みながら試していたことがあるのですが、サンプルコードを実行できなかった記憶があります。この書籍で紹介されているのはGymです。

Pythonによる深層強化学習入門 ChainerとOpenAI Gymではじめる強化学習

牧野浩二, 西崎博光

2,772円(07/09 04:26時点)

発売日: 2018/08/10

Amazon

▼GymnasiumのGitHubのリポジトリはこちら

https://github.com/Farama-Foundation/Gymnasium

　私自身はUnreal EngineとROSの連携によるロボットのシミュレーションを行っていますが、最近は他のシミュレーションソフトウェアも試しています。その中でも、Gymnasiumは強化学習に利用できそうです。

▼以前の記事はこちら

環境を構築する

　まずはPythonの仮想環境を作成します。

py -3.10 -m venv pyenv-gymnasium
cd .\pyenv-gymnasium
.\Scripts\activate

▼Pythonの仮想環境の作成については、以下の記事をご覧ください。

　基本的なパッケージのインストールは以下だけで済むようです。利用するものに応じてさらにインストールしていくようになっていました。

pip install gymnasium

　GitHubのリポジトリをクローンしておきました。

git clone https://github.com/Farama-Foundation/Gymnasium.git

サンプルコードを実行してみる

Lunar Lander

　まずはGymnasiumのドキュメントのサンプルコードを実行してみました。

▼以下のページにサンプルコードがあります。LunarLander-v3というモデルを利用したものです。

https://gymnasium.farama.org/index.html

　ファイルに保存して実行してみたのですが、パッケージが不足していました。

▼Box2Dがインストールされていないというエラーが起きています。

　以下のコマンドで、追加でパッケージをインストールする必要がありました。

pip install "gymnasium[box2d]"

▼起動できました！着陸後、ランダムに地形が変化して、また着陸を繰り返しました。

▼LunarLanderに関する詳しい説明は、以下のページにありました。報酬や行動が設定されているようです。

https://gymnasium.farama.org/environments/box2d/lunar_lander

Bipedal Walker

　二足歩行のシミュレーションがあったので試してみました。

▼ドキュメントはこちら

https://gymnasium.farama.org/environments/box2d/bipedal_walker

　以下のコマンドで実行しました。

python .\Gymnasium\gymnasium\envs\box2d\bipedal_walker.py

▼ウィンドウが起動し、歩き始めました。

▼つんのめって倒れると、ウィンドウが閉じます。

▼ターミナルにはデータが出力されていました。

　実行するごとにランダムな条件で始まります。うまくいくと、端まで歩いていました。

Cart Pole

　GitHubのREADMEにあった、CartPole-v1のコードも実行してみたのですが、何も表示されていませんでした。

▼以下のリンク先のコードです。

https://github.com/Farama-Foundation/Gymnasium?tab=readme-ov-file#api

　Lunar Landerのコードと比較するとrender_mode="human"が無かったので、追加すると実行できました。

　修正後のコードは以下です。

import gymnasium as gym
env = gym.make("CartPole-v1", render_mode="human")

observation, info = env.reset(seed=42)
for _ in range(1000):
    action = env.action_space.sample()
    observation, reward, terminated, truncated, info = env.step(action)

    if terminated or truncated:
        observation, info = env.reset()
env.close()

▼倒立振り子のシミュレーションですね。

　こちらもランダムな条件で何度も繰り返していました。

▼以下のページにCart Poleに関するドキュメントがありました。

https://gymnasium.farama.org/environments/classic_control/cart_pole

最後に

　今回は環境構築とサンプルコードの実行だけ試してみました。実際に強化学習に利用していきたいなと思っています。

▼MuJoCoを利用した強化学習のチュートリアルがあったので、試してみたいところです。

https://gymnasium.farama.org/tutorials/training_agents/reinforce_invpend_gym_v26

カテゴリー: プログラミング

タグ: Gymnasium

Gymnasiumを使ってみる　その１（環境構築、サンプルコードの実行）

はじめに

Genesisを使ってみる　その１（環境構築、サンプルプログラムの実行）

MuJoCoを使ってみる　その１（環境構築、サンプルプログラムの実行）

関連情報

環境を構築する

Pythonの仮想環境を作成する（venv、Windows）

サンプルコードを実行してみる

Lunar Lander

Bipedal Walker

Cart Pole

最後に

コメントを残すコメントをキャンセル

Unreal Engine 5を使ってみる　その20（ハンドトラッキングのコリジョンと物体の把持、Meta XR Interaction SDK Unreal）

VRゴーグルで遊んでみる　その１（Meta Quest 3S）

はじめに

Genesisを使ってみる その１（環境構築、サンプルプログラムの実行）

MuJoCoを使ってみる その１（環境構築、サンプルプログラムの実行）

関連情報

環境を構築する

Pythonの仮想環境を作成する（venv、Windows）

サンプルコードを実行してみる

Lunar Lander

Bipedal Walker

Cart Pole

最後に

コメントを残す コメントをキャンセル

Unreal Engine 5を使ってみる その20（ハンドトラッキングのコリジョンと物体の把持、Meta XR Interaction SDK Unreal）

VRゴーグルで遊んでみる その１（Meta Quest 3S）

Genesisを使ってみる　その１（環境構築、サンプルプログラムの実行）

MuJoCoを使ってみる　その１（環境構築、サンプルプログラムの実行）

コメントを残すコメントをキャンセル

Unreal Engine 5を使ってみる　その20（ハンドトラッキングのコリジョンと物体の把持、Meta XR Interaction SDK Unreal）

VRゴーグルで遊んでみる　その１（Meta Quest 3S）