(Ken Cen出品)Generative AI第27部強化學習模型RLHF 與策略梯度優化

關於 Reward Model 獎勵模型，Trajectory 軌跡，Q function Q 函數， Value function 價值函數， Advantage function 優勢函數， Offline Policy 離線策略

5.00 (2 reviews)

Udemy

platform

中文

language

Data Science

What you will learn

Loading charts...

6596737

udemy ID

03/05/2025

course created date

14/06/2025

course indexed date

Bot

course submited by