48 克制奖赏:人总是不满足
强化学习讲究奖励函数,奖励什么,就会得到什么
人也一样,在人的奖励函数中,吃到美食、看到娱乐节目、刷到有意思的内容、处理掉麻烦事、达成愿望……都会获得精神上的奖赏
所以如果不加克制,人自然会追求短期快乐,也就是局部最优,长期的快乐,比如成就感、获得感就总是排不上优先级
日常就都沉浸在能够获得即时快乐反馈的事情里,不能自拔
而且更坏的是,人总是不满足,会想尽办法获得加倍快乐
例如,本来是刷剧 vs 学习,玩游戏 vs 写代码,吃夜宵 vs 健身
48 克制奖赏:人总是不满足 强化学习讲究奖励函数,奖励什么,就会得到什么 人也一样,在人的奖励函数中,吃到美食、看到娱乐节目、刷到有意思的内容、处理掉麻烦事、达成愿望……都会获得精神上的奖赏 所以如果不加克制,人自然会追求短期快乐,也就是局部最优,长期的快乐,比如成就感、获得感就总是排不上优先级 日常就都沉浸在能够获得即时快乐反馈的事情里,不能自拔 而且更坏的是,人总是不满足,会想尽办法获得加倍快乐 例如,本来是刷剧 vs 学习,玩游戏 vs 写代码,吃夜宵 vs 健身 结果变成了边刷剧边玩游戏边吃夜宵边洗脚边写代码……这就很不好了 夜越来越深,大脑却被各种奖赏搅得越来越兴奋 黑眼圈越来越大...
48 克制奖赏:人总是不满足
强化学习讲究奖励函数,奖励什么,就会得到什么
人也一样,在人的奖励函数中,吃到美食、看到娱乐节目、刷到有意思的内容、处理掉麻烦事、达成愿望……都会获得精神上的奖赏
所以如果不加克制,人自然会追求短期快乐,也就是局部最优,长期的快乐,比如成就感、获得感就总是排不上优先级
日常就都沉浸在能够获得即时快乐反馈的事情里,不能自拔
而且更坏的是,人总是不满足,会想尽办法获得加倍快乐
例如,本来是刷剧 vs 学习,玩游戏 vs 写代码,吃夜宵 vs 健身
暂无评论,快来发表你的见解吧