Reinforcement learning的概念可以用下列兩個例子說明:
The Big Bang Theory(生活大爆炸)第三季第三集(youtube上有,關鍵字Positive reinforcement)
Positive reinforcement
Penny幫Sheldon收盤子
Penny差點坐到Sheldon的專屬位置
Sheldon不喜歡Penny講的蠢話
Penny準備去別的地方講電話
Leonard發現Sheldon正在用正強化訓練Leonard的女朋友,做出Sheldon認為對的行為。
Negative reinforcement (punishment)
Sheldon對Leonard噴水(因Leonard禁止Sheldon訓練他的女朋友)。
B.F. Skinner - pigeon turn (youtube上有)
也叫作operant conditioning (操作制約) ,Skinner的實驗是基於RL的方法訓練一隻鴿子能向左轉一圈。
他準備一隻飢餓的鴿子,一開始鴿子會亂動,當鴿子轉向左邊,Skinner就給它食物做為Reward,強化它的行為,過幾次,鴿子就能向士轉一圈,完成Reinforcement Learning。
這種實驗也類似"巴夫洛夫的狗"。
------------------------------------------------------------------------------------------------------------------------
RL是機器學習中的一派,但是來自於心理學的行為理論(Behaviorist)。在DRL火了之前,資工系學不太到這種東西,其它科系有開"最佳化控制理論"課程的學得到。
RL最特別的地方是Reward的元素,RL演算法只是為了找到最大的累積Reward,RL不需要像ANN(Artificial Neural Network)、DNN(Deep Neural Network)、SVM(Support Vector Machine)去做分類,也不需要像Unsupervised learning去分群,這是RL跟其它機器學習方法最大的不同。
RL的代表演算法有 MDP(Markov Decision Process)和POMDP (Partial Observable MDP) 。
沒有留言:
張貼留言