davideuler/llm-practical-test

一个不同 SOTA 开源模型在不同的日常任务（主要为代码生成）效果上的测试。

Python

一个不同 SOTA 开源模型不同任务效果上的测试。

这个测试对日常使用的不同场景任务的人工评测。

参考各个 markdown 文件中的 prompt 和结论。