rohit-sonker

ML Research at CMU | Past - Tech Lead at CSDISCO, PwC

rohit-sonker's Stars

OpenRL-Lab/DGPO
DGPO: Discovering Multiple Strategies with Diversity-Guided Policy Optimization
Language:Python6
WentseChen/Soft-QMIX
Soft-QMIX: Integrating Maximum Entropy For Monotonic Value Function Factorization
Language:Python11
tensorzero/tensorzero
TensorZero creates a feedback loop for optimizing LLM applications — turning production data into smarter, faster, and cheaper models.
Language:Rust1.8k88