48 克制獎賞:人總是不滿足
強化學習講究獎勵函數,獎勵什麼,就會得到什麼
人也一樣,在人的獎勵函數中,吃到美食、看到娛樂節目、刷到有意思的內容、處理掉麻煩事、達成願望……都會獲得精神上的獎賞
所以如果不加克制,人自然會追求短期快樂,也就是局部最優,長期的快樂,比如成就感、獲得感就總是排不上優先級
日常就都沉浸在能夠獲得即時快樂反饋的事情裡,不能自拔
而且更壞的是,人總是不滿足,會想盡辦法獲得加倍快樂
例如,本來是刷劇 vs 學習,玩遊戲 vs 寫代碼,吃夜宵 vs 健身
48 克制獎賞:人總是不滿足 強化學習講究獎勵函數,獎勵什麼,就會得到什麼 人也一樣,在人的獎勵函數中,吃到美食、看到娛樂節目、刷到有意思的內容、處理掉麻煩事、達成願望……都會獲得精神上的獎賞 所以如果不加克制,人自然會追求短期快樂,也就是局部最優,長期的快樂,比如成就感、獲得感就總是排不上優先級 日常就都沉浸在能夠獲得即時快樂反饋的事情裡,不能自拔 而且更壞的是,人總是不滿足,會想盡辦法獲得加倍快樂 例如,本來是刷劇 vs 學習,玩遊戲 vs 寫代碼,吃夜宵 vs 健身
48 克制獎賞:人總是不滿足
強化學習講究獎勵函數,獎勵什麼,就會得到什麼
人也一樣,在人的獎勵函數中,吃到美食、看到娛樂節目、刷到有意思的內容、處理掉麻煩事、達成願望……都會獲得精神上的獎賞
所以如果不加克制,人自然會追求短期快樂,也就是局部最優,長期的快樂,比如成就感、獲得感就總是排不上優先級
日常就都沉浸在能夠獲得即時快樂反饋的事情裡,不能自拔
而且更壞的是,人總是不滿足,會想盡辦法獲得加倍快樂
例如,本來是刷劇 vs 學習,玩遊戲 vs 寫代碼,吃夜宵 vs 健身
暫無評論,快來發表你的看法吧