nissymori

D1 student. Interested in Offline RL, Game AI, and JAX-based RL.

The University of TokyoTokyo, Japan

nissymori's Stars

srush/GPU-Puzzles
Solve puzzles. Learn CUDA.
Language:Jupyter Notebook9.4k703
samlobel/CFN
Accompanying Code for "Flipping Coins to Estimate Pseudocounts for Exploration in Reinforcement Learning", ICML 2023
Language:Python173
kenjyoung/MinAtar
Language:Python28256
nissymori/JAX-CORL
Clean single-file implementation of offline RL algorithms in JAX
Language:Python872
DorsaRoh/Machine-Learning
Machine learning from scratch
Language:Jupyter Notebook1k50
keraJLi/synthetic-gymnax
Language:Python171
k4ntz/HackAtari
Language:Python71
sotetsuk/brl
reinforcement learning for bridge
Language:Python1
mttga/purejaxql
Simple single-file baselines for Q-Learning in pure-GPU setting
Language:Python863
kvfrans/jax-diffusion-transformer
Implementation of Diffusion Transformer (DiT) in JAX
Language:Python2464
DHDev0/Stochastic-muzero
Pytorch Implementation of Stochastic MuZero for gym environment. This algorithm is capable of supporting a wide range of action and observation spaces, including both discrete and continuous variations.
Language:Python5310
ZhengyaoJiang/latentplan
Code release for Efficient Planning in a Compact Latent Action Space (ICLR2023) https://arxiv.org/abs/2208.10291.
Language:Python9110
instadeepai/og-marl
Datasets with baselines for offline multi-agent reinforcement learning.
Language:Python13512
awesome-mlss/awesome-mlss
🤖 Machine Learning Summer School deadlines
Language:HTML2.6k296
CheeksTheGeek/PyJSONCanvas
A simple library for working with JSON Canvas (previously known as Obsidian Canvas) files.
Language:Python423
keraJLi/rejax
Language:Python1424
pickxiguapi/Uni-RLHF-Platform
Uni-RLHF platform for "Uni-RLHF: Universal Platform and Benchmark Suite for Reinforcement Learning with Diverse Human Feedback" (ICLR2024)
Language:Python291
pickxiguapi/Clean-Offline-RLHF
Offline RLHF codebase implementation for "Uni-RLHF: Universal Platform and Benchmark Suite for Reinforcement Learning with Diverse Human Feedback" (ICLR2024)
Language:Python312
JohannesAck/OfflineRLStructuredNonstationarity
Implementation for RLC paper "Offline Reinforcement Learning from Datasets with Structured Non-Stationarity".
Language:Python5
Kaixhin/imitation-learning
Imitation learning algorithms
Language:Python44639
Improbable-AI/harness-offline-rl
Official implementation of Harnessing Mixed Offline Reinforcement Learning Datasets via Trajectory Reweighting
Language:Python16
williamd4112/suboptimal_offline_datasets
Language:Python2
Improbable-AI/dw-offline-rl
Official implementation of NeurIPS'23 paper, Beyond Uniform Sampling: Offline Reinforcement Learning with Imbalanced Datasets
Language:Python182
kristery/Elastic-DT
[NeurIPS 2023] Implementation of Elastic Decision Transformer
Language:C282
Dragon-Zhuang/Reinformer
Official code for ICML 2024 paper Reinformer: Max-Return Sequence Modeling for offline RL
Language:Python28
google-deepmind/searchless_chess
Grandmaster-Level Chess Without Search
Language:Python577
Baichenjia/UTDS
Pessimistic Value Iteration for Multi-Task Data Sharing in Offline RL
Language:Python143
araffin/sbx
SBX: Stable Baselines Jax (SB3 + Jax)
Language:Python32831
BirkhoffG/jax-dataloader
Pytorch-like dataloaders in JAX.
Language:Jupyter Notebook543
google/grain
Language:Python26918

nissymori

nissymori's Stars

srush/GPU-Puzzles

samlobel/CFN

kenjyoung/MinAtar

nissymori/JAX-CORL

DorsaRoh/Machine-Learning

keraJLi/synthetic-gymnax

k4ntz/HackAtari

sotetsuk/brl

mttga/purejaxql

kvfrans/jax-diffusion-transformer

DHDev0/Stochastic-muzero

ZhengyaoJiang/latentplan

instadeepai/og-marl

awesome-mlss/awesome-mlss

CheeksTheGeek/PyJSONCanvas

keraJLi/rejax

pickxiguapi/Uni-RLHF-Platform

pickxiguapi/Clean-Offline-RLHF

JohannesAck/OfflineRLStructuredNonstationarity

Kaixhin/imitation-learning

Improbable-AI/harness-offline-rl

williamd4112/suboptimal_offline_datasets

Improbable-AI/dw-offline-rl

kristery/Elastic-DT

Dragon-Zhuang/Reinformer

google-deepmind/searchless_chess

Baichenjia/UTDS

araffin/sbx

BirkhoffG/jax-dataloader

google/grain