48 報酬を抑制する:人は常に満足しない
強化学習は報酬関数を重視し、何を報酬とするかで、何が得られるかが決まる
人も同様で、人の報酬関数において、美味しいものを食べる、娯楽番組を見る、面白いコンテンツを閲覧する、面倒な事を処理する、願望を達成する……すべて精神的な報酬を得る
だから抑制しなければ、人は自然に短期の快楽を追求し、つまり局所最適になり、長期の快楽、例えば達成感、獲得感などは常に優先順位が上がらない
日常は即時的な快楽フィードバックを得られる事柄に浸り、抜け出せない
しかもさらに悪いのは、人は常に満足せず、倍の快楽を得るためにあらゆる方法を尽くす
例えば、元々はドラマ鑑賞 vs 学習、ゲーム vs コーディング、夜食 vs フィットネス
コメントはまだありません