(Ken Cen出品)Generative AI第27部 強化學習模型RLHF 與 策略梯度優化
關於 Reward Model 獎勵模型,Trajectory 軌跡,Q function Q 函數, Value function 價值函數, Advantage function 優勢函數, Offline Policy 離線策略
5.00 (1 reviews)

40
students
5 hours
content
Jun 2025
last update
$54.99
regular price
What you will learn
深入解析強化學習(Reinforcement Learning, RL)算法
深入解析如何構建獎勵模型
深入解析計算軌跡(Trajectories)及其在RL中的作用
深入解析Off-Policy Learning 離線策略學習 和 Importance Sampling 重要性採樣
Loading charts...
6596737
udemy ID
03/05/2025
course created date
14/06/2025
course indexed date
Bot
course submited by