폰 노이만의 미니 맥스 정리, 게임이론 7

왜 맥시민일까? 아이러니하게도, 폰 노이만의 미니 맥스 정리는 모든 유한한 게임들이 적어도 하나의 나시키리브리움을 가지고 있다는 모방의 증거를 따릅니다.

폰 노이만의 미니 맥스 정리

이것을 보려면, 두 사람의 제로 섬 게임에서 내시 균형을 찾는 것으로 시작하라. 앨리스의 균형 전략 행과 밥의 평형 전략 열로 전화하세요. 평형 급여는 앨리스의 가치와 밥의 가치로 불릴 것입니다. 예를 들어, 일치 Pennies에서 행과 열 모두는 동일한 확률로 머리와 꼬리가 재생되는 혼합 전략입니다. 앨리스의 값과 Bob의 값은 각 재생되는 제로 보상입니다. 그들이 이렇게 놀면 평균이 됩니다. 밥이 항상 가장 좋은 대답은 줄을 서는 것이기 때문에 앨리스는 앨리스의 가치보다 더 많은 것을 얻을 수 있을지 확신할 수 없습니다. 반면에, 앨리스는 행 놀이를 통해 앨리스의 가치를 얻을 수 있을 것입니다. 왜냐하면 밥이 할 수 있는 최선은 칼럼으로 답하는 것이고 밥이 제로 섬 g으로 할 수 있기 때문입니다. ame는 그가 앨리스에게 할 수 있는 최악의 것과 같습니다. 앨리스의 가치는 앨리스의 최대 보수입니다. 행은 앨리스의 최대 전략 중 하나입니다. 마찬가지로, 밥의 가치는 그의 최대 보수이고, 칼럼은 그의 최대 전략 중 하나입니다.

헤마치민의 보상

앨리스의 가치가 0이 되고 밥의 가치가 0이 되면, 그들의 최대 보상도 0이 됩니다. 따라서 어느 선수도 상대방이 적게 받지 않는 한 그의 또는 헤마치민의 보상보다 더 많은 돈을 받을 수 없습니다. 그래서 합리적인 상대를 상대로 2인 제로 섬 게임을 할 때는 최대의 원칙을 개선할 수 없습니다. 폰 노이만의 이 사실에 대한 증거는 미니 맥스 정리라고 불립니다. 왜냐하면 앨리스와 밥의 맥신 페이프의 합이 0이라고 말하는 것과 같기 때문입니다. 그러나 누군가는 Von Noumann이 그러므로 minimax원칙을 추천했다고 생각하는 일반적인 실수를 해서는 안됩니다. 아무도 각각의 혼합된 전략에서 평균적으로 얻을 수 있는 최상의 보수를 계산하고 싶어 하지 않을 것입니다. 항상 실현되었습니다! 돌이켜 보면 수학자들이 미니 맥스 정리에 즉각 관심을 갖게 된 것은 유감입니다. 조종사가 열 추적 미사일을 피하기 위해 노력하는 경마에 대한 연구는 제어 이론에 있어서 확실히 흥미로운 운동이지만, 자연스럽게 편견을 강화합니다. 게임 이론가들이 미친 사이보그라는 생각에 집착하는 우익들 또한, 우리가 선택의 공리를 거부할 의향이 있다면 미니 맥스 정리는 특정 무한한 게임에서만 진실이 될 수 있다는 난해한 발견으로 인해 게임 이론의 인기가 높아질 것 같지 않습니다. 열광적인 팬들이 모든 것을 그렇게 어렵게 하지 않았다면 게임 이론은 그것의 초기 몇년 동안 더 준비된 수용을 발견했을 것입니다. 모든 아이들은 이 게임을 압니다. 앨리스와 밥은 동시에 그들의 세가지 순수한 전략 중 하나를 나타내는 손 신호를 만듭니다. 바위, 가위, 종이. 우승자는 다음과 같은 규칙에 의해 결정됩니다. 만약 두 선수가 같은 신호를 보낸다면, 그 결과는 무승부입니다. 두 선수는 그들이 같은 확률로 이기거나 지는 복권에 해당한다고 여깁니다. 각 참가자들이 세가지 순수한 전략을 똑같이 자주 사용하는 것이 합리적인 해결책임은 분명합니다. 그리고 나서 그들은 각자 그들의 최대 이익인 0을 보장합니다. 이 게임의 주된 관심사는 이 해결책에 함께 모이는 진화적인 과정을 찾기 위해 매우 열심히 일해야 한다는 것입니다. 예를 들어 그림 9의 최선의 반복 역학은 주기적으로 각 전략을 거의 제거하는 방식으로 사이클을 끝냅니다. Rock-Scissors-Paper와 같은 게임을 하는 세 종류의 중앙 아메리카 salamander들의 인구 혼합이 아니라면 이 결과를 호기심으로 치부할 수도 있습니다. 비슷한 주기로, 그래서 한가지의 변종은 항상 멸종의 문턱에 있는 것처럼 보입니다.

맥시민 원리

배리 오닐은 맥시민 원리에 대한 긍정적인 지지를 발견한 첫 실험에서 이 게임을 사용했습니다. 이전의 실험들은 실망스러웠습니다. 저명한 심리학자인 윌리엄 에스테스는 폰 노이만의 이론에 대한 그의 실험에 대해 보도할 때 특히 신랄하게 비판했습니다. 저희는 사람들이 실제로 경쟁 상황에서 무엇을 할지 예측하고 싶습니다. 그러나 에스테스가 무시하는 발언을 기초로 한 실험에서, 에스테스가 사용하고 있는 강화 학습 실험에서 적절하게 실행된 것으로 묘사된 두명의 피실험자만 있었습니다. 확률 일치라는 이론을 옹호하기 위해서요 어느 주제도 그들이 다른 사람과 게임을 하고 있다는 것을 알지 못 했습니다. 비록 그들이 게임을 하고 있다는 것을 알고 있었다 하더라도, 미니 맥스 이론은 그들의 곤경과 무관했을 것입니다. 게임의 지불이 무엇인지 미리 알지 못했기 때문입니다. 따라서 그들은 불완전한 정보를 가지고 놀고 있었는데, 이것은 폰 노이만의 미니 맥스 이론이 적용되지 않는 상황이었습니다. 그러한 오류가 없는 실험을 설계하면서 오닐은 실험 대상자들이 위험을 감수하는 태도가 다를 수 있다는 가능성을 통제하기를 원했습니다. 예를 들어, Rock-Scissors-Paper는 앨리스와 Bob이 무승부가 동등한 확률로 이기거나 지는 것과 같다고 생각하지 않는다면 제로 섬이 되지 않을 것입니다. 그래서 오닐은 이기거나 지는 것만 하는 게임을 실험했지만, 아직도 해결책을 찾기 힘들 정도로 충분한 구조를 가지고 있습니다. 앨리스와 밥은 카드 한벌에 에이스와 카드 그림 카드를 각각 가지고 있습니다. 그들은 동시에 카드를 보여 줍니다. 양쪽 모두 에이스를 보여 주거나 사진 카드가 일치하지 않으면 앨리스가 이깁니다. 그렇지 않으면 밥이 이깁니다.

혼합된 전략들

앨리스의 최대 전략은 그녀의 혼합된 전략들 중 어느 것이 밥을 그의 모든 순수한 전략들 사이에 무관심하게 만드는지 물어봄으로써 찾을 수 있습니다. 답은 앨리스가 각각의 사진 카드를 똑같이 자주, 그리고 그녀의 에이스를 두번 더 자주 쳐야 한다는 것입니다. 밥도 똑같이 해야 하는데 앨리스는 2/5로 이기고 밥은 3/5로 이기게 됩니다. 결투 신청할 때 가장 가까운 곳에 있을 겁니다. 앨리스와 밥은 단 한발의 총알이 장전된 권총으로 서로를 향해 걸어갑니다. 어느 한쪽이 다른 쪽과 충돌할 확률은 두가지 접근법에 더 가깝게 증가합니다. 각각의 선수에게 주어지는 보상은 살아남을 확률입니다. 앨리스가 밥에게 총을 쏘기 전에 얼마나 가까이 다가가야 하는가? 이것은 말 그대로 생사의 문제입니다. 왜냐하면 그녀가 총을 쏘고 놓치면 밥은 앨리스를 위해 치명적인 조건을 가진 직선 거리로 나아갈 수 있기 때문입니다. 게임의 각 가능한 결과에서 누군가가 죽기 때문에, 그 보상은 항상 하나로 요약됩니다. 한가지 결론은 명백합니다. 한 선수가 다른 선수보다 더 빨리 발사하려고 계획하는 것은 내시 균형일 수 없습니다. 왜냐하면 조금 더 오래 기다리기 위해 먼저 발사하는 선수에게 더 좋은 대답이 될 것이기 때문입니다. 하지만 동시에 불을 열면 얼마나 가까이 있을까요? 미니 맥스 정리가 바로 답을 줍니다. 이중은 제로 섬이 아니라 비 섬이지만, 미니 맥스의 정리는 여전히 적용됩니다. 유일한 차이점은 선수들의 최대 배당금이 이제 0이 아닌 1로 늘어난다는 것입니다. 그래서 앨리스가 밥을 때리는 것보다 항상 두배 더 때린다면, 앨리스가 밥을 3분의 2만큼 때리고 밥은 앨리스를 3분의 1로 때리는 거리에서 쏠 것입니다.

Leave a Comment