メインコンテンツへ移動

48 報酬を抑制する:人は常に満足しない

有料1999-12-31

48 報酬を抑制する:人は常に満足しない 強化学習は報酬関数を重視し、何を報酬とするかで、何が得られるかが決まる 人も同様で、人の報酬関数において、美味しいものを食べる、娯楽番組を見る、面白いコンテンツを閲覧する、面倒な事を処理する、願望を達成する……すべて精神的な報酬を得る だから抑制しなければ、人は自然に短期の快楽を追求し、つまり局所最適になり、長期の快楽、例えば達成感、獲得感などは常に優先順位が上がらない 日常は即時的な快楽フィードバックを得られる事柄に浸り、抜け出せない しかもさらに悪いのは、人は常に満足せず、倍の快楽を得るためにあらゆる方法を尽くす 例えば、元々はドラマ鑑賞 vs 学習、ゲーム vs コーディング、夜食 vs フィットネス

48 報酬を抑制する:人は常に満足しない

強化学習は報酬関数を重視し、何を報酬とするかで、何が得られるかが決まる

人も同様で、人の報酬関数において、美味しいものを食べる、娯楽番組を見る、面白いコンテンツを閲覧する、面倒な事を処理する、願望を達成する……すべて精神的な報酬を得る

だから抑制しなければ、人は自然に短期の快楽を追求し、つまり局所最適になり、長期の快楽、例えば達成感、獲得感などは常に優先順位が上がらない

日常は即時的な快楽フィードバックを得られる事柄に浸り、抜け出せない

しかもさらに悪いのは、人は常に満足せず、倍の快楽を得るためにあらゆる方法を尽くす

例えば、元々はドラマ鑑賞 vs 学習、ゲーム vs コーディング、夜食 vs フィットネス

続きを読むには購入が必要です
この記事は有料です。ログイン後、購入済みの内容は自動で解放されます。
購入する

コメント

コメントはまだありません

コメントを書く