내시 균형, 게임이론 6

내시 균형을 어떻게 찾아가는가? 이 문제는 특히 균형이 맞지 않는 경우에 긴급합니다. 왜 앨리스는 밥을 그의 전략들 사이에 무관심하게 만들기 위해 그녀의 행동을 조정해야 하는가?

내시 균형

스포츠 연구는 운동 선수들이 때때로 게임 이론의 예측과 매우 밀접하게 일치하는 행동을 한다는 것을 보여 줍니다. 축구에서 페널티 킥을 취하는 것이 한 예입니다. 공은 어디를 겨냥해야 하는가? 골키퍼는 어느 쪽으로 점프해야 하는가? 테니스는 또 다른 예입니다. 제가 때려 부술까요, 아니면 긁을까요? 코치들은 게임 이론 책을 읽을 것 같지 않은데 어떻게 각각의 선택을 할 때 정확한 빈도를 알 수 있을까요? 아마도 그들은 시행 착오를 통해 배울 것입니다. 아무도 실제 사람들이 새로운 방법을 배우는 모든 다른 방법들을 이해하지 못하지만, 저희는 반드시 일어나야 하는 일들을 파악할 수 있는 몇몇 장난감 모델들을 가지고 있습니다. 심지어 다음의 순진한 모델도 놀랍게 잘 합니다. 앨리스와 밥은 같은 게임을 반복적으로 하는 로봇입니다. 매번 반복할 때마다 앨리스는 밥의 순수한 전략들이 과거에 그가 했던 것과 같은 빈도로 진행되는 혼합된 전략에 대해 최선의 답변을 하도록 프로그램 되어 있습니다. 밥은 같은 프로그램을 가지고 있습니다. 그래서 그와 앨리스는 완전히 합리적이지 않습니다. 왜냐하면 그들은 때때로 둘 다 더 현명하게 프로그램되면 보상을 개선할 수 있기 때문입니다. 게임 이론가들은 그들이 단지 지나치게 합리적일 뿐이라고 말합니다.

순수 전략을 수행

시간이 경과함에 따라 로봇이 두번째 순수 전략을 수행하는 주파수는 그림 9와 같이 진화합니다(이산 시간에서 연속 시간으로 단순화됨). 예를 들어, 매칭 페니에서 앨리스의 가장 좋은 대답은 테일을 연주하는 현재의 주파수가 절반을 넘는다는 것입니다. 그래서 꼬리에 대한 그녀의 주파수는 꼬리에 대한 그의 주파수가 반 아래로 떨어질 때까지 증가할 것이고, 그 후에 갑자기 그것은 감소하기 시작할 것입니다. 그림 9의 화살표를 따라 항상 Nash균형을 이룹니다. 우리가 로봇을 아무리 초기화한다 하더라도, 얼마나 자주 그들이 각각의 순수한 전략을 하는지 세는 누군가는 결국 우리가 너무 합리적인 로봇들 중 하나를 구별하는 것이 어렵습니다. 완벽하게 이성적인 선수를 만듭니다. 테니스나 축구에 가장 가까운 매치 페니의 경우, 머리 쪽 꼬리를 가진 주파수는 항상 평형 값인 1/2에 수렴합니다. 실험실 실험에서 인간의 실험 대상은 일반적인 패턴이 거의 같습니다. 다만 주파수는 정규적인 방식으로 진화하지 않고 충분히 도달하면 표류하기 시작합니다. 닭의 상황은 더 복잡합니다. 각각의 순수한 균형은 매력적인 부분을 가지고 있습니다. 만약 우리가 우리의 로봇들을 초기화시켜서 그들이 특정한 평형의 끌어당김의 유역에서 시작하도록 한다면, 그들은 결국 그 평형 상태로 모일 것입니다. ( 느린 속도)에 대한 매력의 유역은 대각선 위에 있습니다. 앨리스와 밥과 같은 로봇의 행동이 평형 상태에 정착하지 않고 영원히 순환하는 게임을 만드는 것은 쉽지만 인간은 더 많은 것을 배울 수 있습니다. 앨리스나 밥보다 다른 길을 택합니다. 특히 우리가 흔히 소식통의 새로운 게임과 직면해 어떻게 행동하는 것을 배우는 것 모든 종류의 피드백을 즐깁니다. 예를 들어, 신입 사원들은 경험이 더 많은 동료들로부터 요령을 배운입니다. 젊은 과학자들은 노벨상의 성공 비결을 찾기 위해 노벨상 수상자들의 역사를 연구합니다. 소설가들은 최신 베스트 셀러의 줄거리를 끊임없이 재사용합니다. 쇼핑객들은 서로 어디서 가장 싼 물건을 찾을 수 있는지를 알려 줍니다. 그러한 사회적 또는 모방적 학습의 장난감 모델들은 개인들이 시행 착오를 통해 배우는 모델들보다 내시 계급에 더 빠르고 신뢰성 있게 융합됩니다. 진화 게임 이론은 그러한 역동적인 모델의 연구입니다. 진화 생물학에 적용하는 것은 매우 중요하기 때문에 그것은 그 자체로 한장을 얻습니다.

혼합된 전략이 허용

젊은 존 내시가 폰 노이만의 사무실에 전화를 걸어 모든 유한한 게임이 혼합된 전략이 허용될 때 적어도 하나의 균형이 있다는 그의 증거를 말했을 때, 폰 노이만은 무시했습니다. 왜 그는 내시의 공헌을 환영하지 않았을까요? 내시가 자신의 정리를 증명하기 위해 사용했던 방법이 자신이 그 방법을 개척했던 폰 노이만에게는 새로운 것이 아니라는 것은 사실입니다. 그가 알버트 아인슈타인에게 물리학을 가르치기 위해 그에게 전화했던 것으로 유명하기 때문에, 내시의 접근법이 아마도 그다지 재치 있지 않았다는 것도 사실입니다. 그러나 von Neumann은 그의 영역에 끼어들고 있는 용감한 젊은 대학원생으로부터 두려움에 떨고 있습니다. 저는 폰 노이만이 관심이 없는 것에는 보다 근본적인 이유가 있다고 생각합니다. 폰 노이만은 게임 이론의 진화적인 해석에 대해 결코 많이 생각해 본 적이 없는 것 같습니다. 그는 게임을 연구하는 목적은 명확하고 합리적인 해결책을 찾기 위한 것이어야 한다고 믿었습니다.

하나의 균형을 선택

대부분의 게임들은 많은 내시 균형을 가지고 있고 종종 다른 것보다 하나의 균형을 선택하는 순수하게 합리적인 이유가 없기 때문에 내시 균형의 개념은 이 요구 사항을 충족시키지 않습니다. 폰 노이만이 나중에 언급했듯이, 최고의 기준은 우리에게 어떤 전략 프로파일이 게임에 대한 합리적인 해결책이 될 수 없다는 것을 알려 줄 뿐입니다. 폰 노이만은 독특하고 합리적인 해결책이 실현될 수 있는 몇 안 되는 게임들 중 하나이기 때문에 아마도 그의 관심을 두 사람의 제로 섬 게임으로 제한했을 것입니다. 그의 이 사실에 대한 증명이 미니 맥스 정리라고 불려야 하는 것은 유감스러운 일입니다. 왜냐하면 두 사람의 제로 섬 게임의 합리적 해결책은 실제로 각 플레이어가 맥신 프린치를 적용하는 것이기 때문입니다. 이것은 각각의 혼합된 전략에서 평균적으로 얻을 수 있는 최악의 보수를 계산하고, 만약 이 최악의 상황이 발생한다면 보수를 극대화할 수 있는 전략을 선택하라는 것입니다. o는 항상 실현되었습니다. 예를 들어, Matching Pennies에서 앨리스에게 일어날 수 있는 최악의 일은 Bob이 그녀의 혼합된 전략의 선택을 추측하는 것입니다. 만약 이 혼합된 전략이 그녀에게 반 이상의 시간 동안 앞면을 연주할 것을 요구한다면, 그는 항상 뒷면을 연주할 것입니다. 그리고 나서 그녀는 반 이상을 잃을 것이고 그래서 그녀의 보수는 부정적일 것입니다. 앨리스의 혼합된 전략이 그녀에게 절반 이상의 시간 동안 꼬리를 사용하도록 요구한다면 밥은 항상 앞면을 사용할 것입니다. 그녀는 또 다시 반 이상을 잃을 것이고 그래서 그녀의 보수는 또 다시 부정적이 될 것입니다. 따라서 앨리스의 최대 전략은 머리와 꼬리를 똑같이 자주 연주하는 것인데, 이것은 그녀에게 정확히 0의 보수를 보장해 줍니다. 우주가 당신을 자신의 개인적인 적으로 지목했다고 가정하기 때문에, 일반적으로 최시민 원칙이 매력적이라고 생각하는 것은 파라노스 뿐입니다. 하지만 앨리스가 제로 섬 게임에서 밥을 연기한다면, 그는 관련된 우주이기 때문에 이 특별한 경우에 그녀의 개인적인 적인 것입니다.

Leave a Comment