get basic interface working

rejuvyesh · rejuvyesh · commit 973603145cb8 · 2022-03-10T00:19:03.000Z
diff --git a/environments/environment.jl b/environments/environment.jl
@@ -196,7 +196,7 @@ end
 abstract type Space{T,N} end
 
 """ 
-    BoxSpace{T,N} <: Environment{T,N}
+    BoxSpace{T,N} <: Space{T,N}
 
     domain with lower and upper limits 
 
@@ -226,6 +226,10 @@ function contains(s::BoxSpace{T,N}, v::AbstractVector{T}) where {T,N}
     all(v .>= s.low) && all(v .<= s.high)
 end
 
+# For compat with RLBase
+Base.in(v::AbstractVector{T}, s::BoxSpace{T,N}) where {T,N} = all(v .>= s.low) && all(v .<= s.high)
+Random.rand(rng::Random.AbstractRNG, s::BoxSpace{T,N}) where {T,N} = return rand(rng, T,N) .* (s.high .- s.low) .+ s.low
+
 function clip(s::BoxSpace, u)
     clamp.(u, s.low, s.high)
 end
diff --git a/environments/rlenv.jl b/environments/rlenv.jl
@@ -1,24 +1,24 @@
 using ReinforcementLearningBase: RLBase
 
-mutable struct DojoRLEnv <: RLBase.AbstractEnv
-    dojoenv
-    action_space
-    observation_space
-    state
-    reward
+mutable struct DojoRLEnv{T} <: RLBase.AbstractEnv
+    dojoenv::Environment
+    state::Vector{T}
+    reward::T
     done::Bool
     info::Dict
 end
 
-function DojoRLEnv(dojoenv::Environment)
-    action_space = convert(RLBase.Space, dojoenv.input_space)
-    observation_space = convert(RLBase.Space, dojoenv.observation_space)
+function DojoRLEnv(dojoenv::Environment{X,T}) where {X,T}
     state = reset(dojoenv)
-    return DojoRLEnv(dojoenv, action_space, observation_space, state, 0.0, false, Dict())
+    return DojoRLEnv{T}(dojoenv, state, convert(T, 0.0), false, Dict())
 end
 
-RLBase.action_space(env::DojoRLEnv) = env.action_space
-RLBase.state_space(env::DojoRLEnv) = env.observation_space
+function DojoRLEnv(name::String; kwargs...)
+    DojoRLEnv(Dojo.get_environment(name; kwargs...))
+end
+
+RLBase.action_space(env::DojoRLEnv) = env.dojoenv.input_space
+RLBase.state_space(env::DojoRLEnv) = env.dojoenv.observation_space
 RLBase.is_terminated(env::DojoRLEnv) = env.done
 
 RLBase.reset!(env::DojoRLEnv) = reset(env.dojoenv)
@@ -28,6 +28,9 @@ RLBase.state(env::DojoRLEnv) = env.state
 
 Random.seed!(env::DojoRLEnv, seed) = Dojo.seed(env.dojoenv, seed)
 
+# TODO:
+# RLBase.ChanceStyle(env::DojoRLEnv) = RLBase.DETERMINISTIC
+
 function (env::DojoRLEnv)(a)
     s, r, d, i = step(env.dojoenv, a)
     env.state = s