48 보상 억제: 사람은 항상 만족하지 않는다

48 보상 억제: 사람은 항상 만족하지 않는다 강화학습은 보상 함수를 중시하며, 무엇을 보상하는가에 따라, 무엇을 얻는지가 결정된다 사람도 마찬가지, 사람의 보상 함수에서, 맛있는 음식을 먹거나, 오락 프로그램을 보거나, 재미있는 콘텐츠를 브라우징하거나, 귀찮은 일을 처리하거나, 소원을 달성하는 것…… 모두 정신적 보상을 얻는다 그래서 억제하지 않으면, 사람은 자연스럽게 단기 쾌락을 추구하며, 즉 국소 최적이가 되고, 장기 쾌락, 예를 들어 성취감, 획득감 등은 항상 우선순위가 오르지 않는다 일상은 즉각적 쾌락 피드백을 얻을 수 있는 일에 잠겨, 빠져나올 수 없다 게다가 더 나쁜 것은, 사람은 항상 만족하지 않으며, 배의 쾌락을 얻기 위해 온갖 방법을 다한다 예를 들어, 원래는 드라마 감상 vs 학습, 게임 vs 코딩, 야�� vs 피트니스

강화학습은 보상 함수를 중시하며, 무엇을 보상하는가에 따라, 무엇을 얻는지가 결정된다

사람도 마찬가지, 사람의 보상 함수에서, 맛있는 음식을 먹거나, 오락 프로그램을 보거나, 재미있는 콘텐츠를 브라우징하거나, 귀찮은 일을 처리하거나, 소원을 달성하는 것…… 모두 정신적 보상을 얻는다

그래서 억제하지 않으면, 사람은 자연스럽게 단기 쾌락을 추구하며, 즉 국소 최적이가 되고, 장기 쾌락, 예를 들어 성취감, 획득감 등은 항상 우선순위가 오르지 않는다

일상은 즉각적 쾌락 피드백을 얻을 수 있는 일에 잠겨, 빠져나올 수 없다

게다가 더 나쁜 것은, 사람은 항상 만족하지 않으며, 배의 쾌락을 얻기 위해 온갖 방법을 다한다

예를 들어, 원래는 드라마 감상 vs 학습, 게임 vs 코딩, 야식 vs 피트니스

댓글

댓글 작성