(Ken Cen出品)Generative AI第27部 強化學習模型RLHF 與 策略梯度優化

關於 Reward Model 獎勵模型,Trajectory 軌跡,Q function Q 函數, Value function 價值函數, Advantage function 優勢函數, Offline Policy 離線策略
5.00 (1 reviews)
Udemy
platform
中文
language
Data Science
category
instructor
(Ken Cen出品)Generative AI第27部 強化學習模型RLHF 與 策略梯度優化
40
students
5 hours
content
Jun 2025
last update
$54.99
regular price

What you will learn

深入解析強化學習(Reinforcement Learning, RL)算法

深入解析如何構建獎勵模型

深入解析計算軌跡(Trajectories)及其在RL中的作用

深入解析Off-Policy Learning 離線策略學習 和 Importance Sampling 重要性採樣

Loading charts...

6596737
udemy ID
03/05/2025
course created date
14/06/2025
course indexed date
Bot
course submited by