48 報酬を抑制する：人は常に満足しない

48 報酬を抑制する：人は常に満足しない強化学習は報酬関数を重視し、何を報酬とするかで、何が得られるかが決まる人も同様で、人の報酬関数において、美味しいものを食べる、娯楽番組を見る、面白いコンテンツを閲覧する、面倒な事を処理する、願望を達成する……すべて精神的な報酬を得るだから抑制しなければ、人は自然に短期の快楽を追求し、つまり局所最適になり、長期の快楽、例えば達成感、獲得感などは常に優先順位が上がらない日常は即時的な快楽フィードバックを得られる事柄に浸り、抜け出せないしかもさらに悪いのは、人は常に満足せず、倍の快楽を得るためにあらゆる方法を尽くす例えば、元々はドラマ鑑賞 vs 学習、ゲーム vs コーディング、夜食 vs フィットネス

強化学習は報酬関数を重視し、何を報酬とするかで、何が得られるかが決まる

人も同様で、人の報酬関数において、美味しいものを食べる、娯楽番組を見る、面白いコンテンツを閲覧する、面倒な事を処理する、願望を達成する……すべて精神的な報酬を得る

だから抑制しなければ、人は自然に短期の快楽を追求し、つまり局所最適になり、長期の快楽、例えば達成感、獲得感などは常に優先順位が上がらない

日常は即時的な快楽フィードバックを得られる事柄に浸り、抜け出せない

しかもさらに悪いのは、人は常に満足せず、倍の快楽を得るためにあらゆる方法を尽くす

例えば、元々はドラマ鑑賞 vs 学習、ゲーム vs コーディング、夜食 vs フィットネス

コメント

コメントを書く