zhlmmc

babelcloud.ai CEO

Babel Inc.Shanghai

Pinned Repositories

LLM-RGB
LLM Reasoning and Generation Benchmark. Evaluate LLMs in complex scenarios systematically.
Language:TypeScript128 6 410
Devon
Devon: An open-source pair programmer
Language:Python3.2k 32 71261
promptfoo
Test your prompts, agents, and RAGs. Red teaming, pentesting, and vulnerability scanning for LLMs. Compare performance of GPT, Claude, Gemini, Llama, and more. Simple declarative configs with command line and CI/CD integration.
Language:TypeScript4.6k 21 682362
bookinfo
Language:Mustache0 0 00
copilot-analysis
Language:JavaScript0 0 00
experiments
Open sourced predictions, execution logs, trajectories, and results from model inference + evaluation runs on the SWE-bench task.
Language:Shell00
human-eval
Code for the paper "Evaluating Large Language Models Trained on Code"
Language:Python00
nextjs-blog-theme
Language:JavaScript0 1 00
node-docker-good-defaults
sample node app for Docker examples
Language:JavaScript0 0 00
springboot_demo
微信云托管springboot demo
Language:Java0 0 039

zhlmmc's Repositories

zhlmmc/bookinfo
Language:Mustache0 0 00
zhlmmc/copilot-analysis
Language:JavaScript0 0 00
zhlmmc/experiments
Open sourced predictions, execution logs, trajectories, and results from model inference + evaluation runs on the SWE-bench task.
Language:Shell00
zhlmmc/human-eval
Code for the paper "Evaluating Large Language Models Trained on Code"
Language:Python00
zhlmmc/nextjs-blog-theme
Language:JavaScript0 1 00
zhlmmc/node-docker-good-defaults
sample node app for Docker examples
Language:JavaScript0 0 00
zhlmmc/springboot_demo
微信云托管springboot demo
Language:Java0 0 039