Actor-Critic

本项目完成UC Berkeley, CS294-112课后作业,实现了Actor-Critic方法,相比Policy Gradient,方差和训练速度改善明显。