Battam1111

PhD student @ PolyU & EIT

Hong Kong Polytechnic UniversityHong Kong

Pinned Repositories

AccuracyParadox-RLHF
[EMNLP 2024 Main] Official implementation of the paper "The Accuracy Paradox in RLHF: When Better Reward Models Don't Yield Better Language Models".
Language:Python80
battam1111
Personal Page
00
FineGrainedRLHF
Language:Python00
first-ku
第一个仓库，测试性拉满
00
MAAC
Code for "Actor-Attention-Critic for Multi-Agent Reinforcement Learning" ICML 2019
Language:Python00
MCTSV
Language:Python30
mujoco-benchmark
MuJoCo benchmark for Deep Reinforcement Learning as provided by Tianshou framework.
Language:Jupyter Notebook00
OpenHuFu
OpenHuFu is an open-sourced data federation system to support collaborative queries over multi databases with security guarantee.
Language:Java00
YJ-MADDPG
Language:Python10
YJ-SACR
Language:Jupyter Notebook10

Battam1111's Repositories

Battam1111/AccuracyParadox-RLHF
[EMNLP 2024 Main] Official implementation of the paper "The Accuracy Paradox in RLHF: When Better Reward Models Don't Yield Better Language Models".
Language:Python80
Battam1111/MCTSV
Language:Python30
Battam1111/YJ-MADDPG
Language:Python10
Battam1111/YJ-SACR
Language:Jupyter Notebook10
Battam1111/battam1111
Personal Page
00
Battam1111/FineGrainedRLHF
Language:Python00
Battam1111/first-ku
第一个仓库，测试性拉满
00
Battam1111/MAAC
Code for "Actor-Attention-Critic for Multi-Agent Reinforcement Learning" ICML 2019
Language:Python00
Battam1111/mujoco-benchmark
MuJoCo benchmark for Deep Reinforcement Learning as provided by Tianshou framework.
Language:Jupyter Notebook00
Battam1111/OpenHuFu
OpenHuFu is an open-sourced data federation system to support collaborative queries over multi databases with security guarantee.
Language:Java00
Battam1111/Reinforcement-learning-with-tensorflow
Simple Reinforcement learning tutorials, 莫烦Python 中文AI教学