48 克制奖赏:人总是不满足 强化学习讲究奖励函数,奖励什么,就会得到什么 人也一样,在人的奖励函数中,吃到美食、看到娱乐节目、刷到有意思的内容、处理掉麻烦事、达成愿望……都会获得精神上的奖赏 所以如果不加克制,人自然会追求短期快乐,也就是局部最优,长期的快乐,比如成就感、获得感就总是排不上优先级 日常就都沉浸在能够获得即时快乐反馈的事情里,不能自拔 而且更坏的是, 人总是不满足,会想尽办法获得加
48 克制奖赏:人总是不满足 强化学习讲究奖励函数,奖励什么,就会得到什么 人也一样,在人的奖励函数中,吃到美食、看到娱乐节目、刷到有意思的内容、处理掉麻烦事、达成愿望……都会获得精神上的奖赏 所以如果不加克制,人自然会追求短期快乐,也就是局部最优,长期的快乐,比如成就感、获得感就总是排不上优先级 日常就都沉浸在能够获得即时快乐反馈的事情里,不能自拔 而且更坏的是,人总是不满足,会想尽办法获得加倍快乐 例如,本来是刷剧 vs 学习,玩游戏 vs 写代码,吃夜宵 vs 健身 结果变成了边刷剧边玩游戏边吃夜宵边洗脚边写代码……这就很不好了 夜越来越深,大脑却被各种奖赏搅得越来越兴奋 黑眼圈越来越大...
暫無評論,快來發表你的看法吧