Remove default model i will add back later, add back train.py, fix some rewarding

2026-03-10 09:09:20 +01:00 · 2025-11-16 22:34:29 +01:00
parent 5e87b30f78
commit c7c22695e5
4 changed files with 39 additions and 10 deletions
--- a/invader_agent.zip
+++ b/invader_agent.zip
--- a/train.py
+++ b/train.py
@@ -0,0 +1,30 @@
+from stable_baselines3 import PPO
+from utils.rl import SpaceInvadersEnv
+from stable_baselines3.common.vec_env import DummyVecEnv
+
+def make_env(rank: int, seed: int = 0):
+    def _init():
+        env = SpaceInvadersEnv()
+        return env
+    return _init
+
+env = SpaceInvadersEnv()
+
+n_envs = 128
+
+env = DummyVecEnv([make_env(i) for i in range(n_envs)])
+model = PPO(
+    "MlpPolicy", 
+    env, 
+    n_steps=8192,
+    batch_size=256,
+    n_epochs=7,
+    learning_rate=0.001,
+    verbose=1, 
+    device="cpu", 
+    gamma=0.985, 
+    ent_coef=0.015,
+    clip_range=0.2,
+)
+model.learn(75_000_000)
+model.save("invader_agent")
--- a/utils/constants.py
+++ b/utils/constants.py
@@ -35,29 +35,29 @@ DIFFICULTY_SETTINGS = {

 DIFFICULTY_LEVELS = {
    "Easy": {
-        "enemy_rows": 3,
-        "enemy_cols": 4,
+        "enemy_rows": 2,
+        "enemy_cols": 3,
        "enemy_respawns": 5,
        "player_count": 2,
        "player_respawns": 2
    },
    "Medium": {
        "enemy_rows": 3,
-        "enemy_cols": 5,
+        "enemy_cols": 4,
        "enemy_respawns": 4,
        "player_count": 4,
        "player_respawns": 3
    },
    "Hard": {
        "enemy_rows": 4,
-        "enemy_cols": 6,
+        "enemy_cols": 5,
        "enemy_respawns": 3,
        "player_count": 6,
        "player_respawns": 4
    },
    "Extra Hard": {
-        "enemy_rows": 6,
-        "enemy_cols": 7,
+        "enemy_rows": 5,
+        "enemy_cols": 6,
        "enemy_respawns": 2,
        "player_count": 8,
        "player_respawns": 5
--- a/utils/rl.py
+++ b/utils/rl.py
@@ -172,13 +172,13 @@ class SpaceInvadersEnv(gym.Env):
                    b = Bullet(self.player.center_x, self.player.center_y, 1)
                    self.bullets.append(b)
                else:
-                    reward -= 0.05
+                    reward -= 0.02

            if self.enemy_formation.enemies:
                nearest = self._nearest_enemy()
                alignment = abs(nearest.center_x - self.player.center_x) / self.width
                if alignment < 0.025:
-                    reward += 0.3
+                    reward += 0.1

            self.player.center_x = np.clip(self.player.center_x, 0, self.width)
            self.player_speed = (self.player.center_x - prev_x) / max(1e-6, PLAYER_SPEED)
@@ -222,7 +222,6 @@ class SpaceInvadersEnv(gym.Env):
                    if self.player_respawns_remaining > 0:
                        self.player_respawns_remaining -= 1
                        self._respawn_player()
-                        reward += 2.0 
                    else:
                        terminated = True

@@ -265,7 +264,7 @@ class SpaceInvadersEnv(gym.Env):
            if self.player.center_x < edge_threshold or self.player.center_x > self.width - edge_threshold:
                reward -= 0.03

-        reward -= 0.005
+        reward -= 0.0025

        obs = self._obs()