waterhorse1

Ph.D. student in University College London, interested in Large Language Model, Meta Learning, Reinforcement Learning and Multi-agent Learning.

University College London

Pinned Repositories

torchopt
TorchOpt is an efficient library for differentiable optimization built upon PyTorch.
Language:Python503 12 3635
apollo_learning
Baidu Apollo Learning
0 1 00
ChessGPT
(NeurIPS 2023) ChessGPT - Bridging Policy Learning and Language Modeling
Language:Python82 4 45
CMML_pytorch
3 2 00
ha_ma_ppo
Language:Python1 3 01
LLM_Tree_Search
(ICML 2024) Alphazero-like Tree-Search can guide large language model decoding and training
Language:Python124 3 412
MELU_pytorch
An unofficial pytorch implementation of MELU
Language:Python41 4 811
MRI_RL
Language:Python0 1 00
NAC
(NeurIPS 2021) Neural Auto-Curricula in Two-Player Zero-Sum Games.
Language:Jupyter Notebook25 2 13
waterhorse1.github.io
Language:HTML10

waterhorse1's Repositories

waterhorse1/LLM_Tree_Search
(ICML 2024) Alphazero-like Tree-Search can guide large language model decoding and training
Language:Python124 3 412
waterhorse1/ChessGPT
(NeurIPS 2023) ChessGPT - Bridging Policy Learning and Language Modeling
Language:Python82 4 45
waterhorse1/MELU_pytorch
An unofficial pytorch implementation of MELU
Language:Python41 4 811
waterhorse1/NAC
(NeurIPS 2021) Neural Auto-Curricula in Two-Player Zero-Sum Games.
Language:Jupyter Notebook25 2 13
waterhorse1/CMML_pytorch
3 2 00
waterhorse1/ha_ma_ppo
Language:Python1 3 01
waterhorse1/waterhorse1.github.io
Language:HTML10
waterhorse1/apollo_learning
Baidu Apollo Learning
0 1 00
waterhorse1/classification
Language:Python0 2 00
waterhorse1/decision-transformer
Official codebase for Decision Transformer: Reinforcement Learning via Sequence Modeling.
Language:Python0 1 00
waterhorse1/Deep-RL-Keras
Keras Implementation of popular Deep RL Algorithms (A3C, DDQN, DDPG, Dueling DDQN)
Language:Python0 1 00
waterhorse1/MRI_RL
Language:Python0 1 00
waterhorse1/chess_template
Language:Jupyter Notebook
waterhorse1/deepdrive
End-to-end simulation for self-driving cars
Language:Python
waterhorse1/DeepLearningFlappyBird
Flappy Bird hack using Deep Reinforcement Learning (Deep Q-learning).
Language:Python
waterhorse1/DRL-implementation
Language:Jupyter Notebook
waterhorse1/haddpg
2 0
waterhorse1/meta_classification
waterhorse1/Meta_Gradient
Language:Python
waterhorse1/Meta_Regression
Language:Jupyter Notebook
waterhorse1/metaworld
An open source robotics benchmark for meta- and multi-task reinforcement learning
waterhorse1/models
Models and examples built with TensorFlow
Language:Python1 0
waterhorse1/MRI_DDPG
Language:Jupyter Notebook2 0
waterhorse1/pearl_lstm
Language:Python2 0
waterhorse1/Pearl_relabel
Language:Python1
waterhorse1/Promp_test
Language:Python2 0
waterhorse1/Regression
2 0
waterhorse1/reinforcement-learning
Minimal and Clean Reinforcement Learning Examples
Language:Python
waterhorse1/torchopt
TorchOpt is a high-performance optimizer library built upon PyTorch for easy implementation of functional optimization and gradient-based meta-learning.
Language:Python1 0