Kurt Verstegen Pokernews.com/de (Link: http://de.pokernews.com/strategie/spieltheorie-teil1.htm)
Spieltheorie ist ein Teil der Mathematik, die sich mit der Entscheidungsfindung von zwei oder mehr Spielern mit konkurrierenden Interessen befasst. Diese wird oft in Biologie und der Wirtschaft benutzt, kann jedoch auch im Poker verwendet werden. Um das Konzept zu erklären fangen wir einfach an, so dass in diesem Artikel nicht viel Poker vorkommen wird. Das Konzept wird dann in Teil 2 angewendet, wenn wir die Grundlagen besprochen haben. Das bekannteste Beispiel der Spieltheorie ist das Dilemma der Gefangenen. Viele werden dieses Beispiel bereits kennen, ich werde es jedoch hier noch einmal vorstellen.
Irgendwo wird ein Verbrechen begangen und die Polizei verhaftet zwei Männer. Die Beamten sind überzeugt, dass die Verdächtigen die Tat begangen haben, können ihnen aber nichts nachweisen. Einer der Polizisten hat plötzlich eine Idee. Sie entscheiden sich die Verdächtigen in separate Zellen zu bringen und schlagen ihnen folgenden Deal vor. Sie können ihren Partner verraten und so ihre Haftstrafe verkürzen oder sie können stumm bleiben. Wenn keiner der Verdächtigen auspackt, hat die Polizei keine Beweise und beide gehen wegen Waffenbesitzes für ein Jahr hinter Gitter. Wenn einer den anderen verrät, so bleibt der Verräter straffrei und der andere bekommt eine 10-jährige Haftstrafe. Sollten sich die Gefangenen gegenseitig verraten, müssen beide für 8 Jahre ins Gefängnis (nicht 10 Jahre, da sie bei der Aufklärung des Falls behilflich waren).
Wir können diese Informationen in einem Diagramm darstellen:
Diese Graphik wird Matrix genannt und sie zeigt die möglichen Folgen für bei Spieler. Die erste Zahl ist immer der Ausgang für den Gefangenen 1 (G1) und die Zahl hinter dem Komma das Ergebnis für Gefangenen 2 (G2). Bleiben beide stumm, gehen beide für 1 Jahr ins Gefängnis. Wenn einer den anderen verrät und der andere bleibt stumm, kommt der Verräter frei und der andere muss für 10 Jahre ins Gefängnis. Wenn beide sich gegenseitig verraten, müssen beide für 8 Jahre ins Gefängnis. Das erhoffte Ergebnis der Polizei ist, dass beide sich gegenseitig verraten, damit beide Kriminellen von der Straße weg sind. Und die Polizei hat Glück, da aufgrund der Ausgangslage beide Gefangenen immer den anderen verraten werden. Aber warum ist das so?
Nun, nehmen wir an wir sind G1. Sie sitzen in Ihrer Zelle und denken nach. Sie wissen nicht was G2 machen wird, da Sie nicht mit ihm kommunizieren können und so gehen Sie alle Möglichkeiten durch. Angenommen G2 verrät sie. In diesem Fall wäre es besser den anderen auch zu verraten, da Sie somit weniger Zeit im Gefängnis verbringen müssten. Falls G2 stumm bleibt, wäre es ebenfalls besser den anderen zu verraten, da so gar keine Haftstrafe auf Sie zukommen würde. Es ist also egal was G2 macht, da Sie immer besser dran sind, wenn Sie den Kollegen verraten. G2 hat die gleiche Problematik und auch er fährt immer besser, wenn er Sie verrät. Vielleicht denkt G1: „Eventuell sollte ich gar nichts sagen und darauf hoffen, dass auch G2 nichts verrät. Somit wären wir nach einem Jahr draußen". Sollte sich jedoch G2 dennoch entscheiden Sie zu verraten, müssten Sie für 10 Jahre ins Gefängnis. Wollen Sie dieses Risiko eingehen? Normalerweise nicht und so gehen beide Verdächtigen für 8 Jahre ins Gefängnis.
Diese Situation heißt Nash-Gleichgewicht, benannt nach dem großartigen Mathematiker John Forbes Nash (seine Geschichte wird in dem Film „A Beautiful Mind" erzählt). Dieses Gleichgewicht gibt an, dass kein Spieler seine Strategie so angleichen kann, um davon zu profitieren. Angenommen wir befinden uns im Nash-Gleichgewicht und beide Gefangenen verraten sich gegenseitig und müssen für 8 Jahre ins Gefängnis. G1 kann seine Strategie ändern und nichts verraten, dann muss er jedoch für 10 Jahre hinter Gitter. Das Gleiche gilt auch für G2. Keiner der Spieler profitiert davon seine Strategie zu ändern.
Hierfür gibt es unzählige weitere Beispiele. Z.B. ein Krieg zwischen zwei Ländern. Ein Land kann wählen in den Krieg zu ziehen oder nicht in den Krieg zu ziehen. Das andere Land hat die gleiche Wahl. Wenn beide nicht in den Krieg ziehen, behalten sie ihr ursprüngliches Gebiet. Zieht Land A in den Krieg und Land B nicht, so erobert A Gebiete und B muss Gebiete abtreten. Wenn Land B in den Krieg zieht und A nicht, dann erobert B Gebiete und A muss diese abtreten. Wenn beide in den Krieg ziehen, werden beide nur wenige Verluste erleiden. Wieder können wir die Situation in einer Matrix darstellen. Wenn ein Land seine Gebiete behält, erhält es 0 Punkte. Erobert ein Land die Gebiete des Gegners gibt das 10 Punkte und –10 Punkte, falls ein Land Gebiete abtreten muss. Verliert ein Land nur wenige Gebiete, so sind das –5 Punkte.
Wieder sieht man, dass es das Beste für beide Länder ist einen Krieg zu beginnen, egal wie die Strategie des anderen Landes aussehen wird. Stellen Sie sich vor Regent von Land A zu sein. Wenn Land B angreift, können Sie entweder nichts unternehmen (-10) oder einen Gegenangriff starten (-5). Zurückzuschlagen ist definitiv die beste Wahl, da es die Gebietsverluste verringert. Falls Land B nicht angreift, dann kann Land A zwischen Frieden (0) und Krieg (10) wählen. Auch hier ist Krieg die beste Option für Land A. Land B ist in der exakt gleichen Position, weshalb die Länder in einer derartigen Situation immer Krieg führen werden. Dies nennt man das Nash-Gleichgewicht.
Die NATO versucht den Frieden auf der Welt zu sichern. Als Lösung für das obige Problem könnte die NATO zu beiden Ländern sagen: „Wenn ihr das andere Land angreift, bombardieren wir euch zurück in die Steinzeit". Sollte sich die NATO dazu entschließen ein Land zu attackieren, so würde dieses Land schwere Gebietsverluste hinnehmen müssen. Somit würde die Matrix auf folgende Weise verändert:
Nun ändert sich die Situation für beide Länder. Nehmen wir wieder an wir wären Land A. Land B könnte angreifen und Sie können zwischen Frieden (-10) oder Krieg (-15) wählen. Frieden ist nun die bessere Alternative. Wenn sich Land B nun für den Frieden ausspricht können Sie ebenfalls zwischen Frieden (0) und Krieg (-15) entscheiden. Wieder ist Frieden die bessere Entscheidung. In diesem neuen Beispiel wäre das Nash- Gleichgewicht Frieden für beide Länder. Die Beteiligung der NATO hat die Matrix erfolgreich für beide Länder verändert, so dass Frieden nun die bessere Option ist.
Schauen wir uns nun ein Beispiel mit etwas mehr Pokerbezug an. Das Spiel heißt Odds und Events und beinhaltet zwei Gegner die gleichzeitig eine Entscheidung treffen müssen. Beide Spieler bekommen eine Münze in ihre Hand und können entscheiden, ob sie die Münze in der Hand behalten wollen oder nicht. Zu einem bestimmten Zeitpunkt werden beide Spieler gebeten die Hand zu öffnen und wenn die Anzahl der Münzen 0 bzw. 2 ist, so gewinnt Spieler A. Ist die Anzahl der Münzen 1, so gewinnt Spieler B. Der Gewinner erhält einen Punkt +1 und dem Verlieren wird ein Punkt abgezogen –1. In der Matrix sieht dies wie folgt aus:
Diese Matrix beschreibt ein sogenanntes konstantes Summenspiel, da die Summe der Ergebnisse auf dem Tisch immer gleich einer Konstanten ist, in diesem Fall 0. In diesem Beispiel ist es offensichtlich, dass Spieler A immer versuchen muss das Gleiche wie Spieler B zu tun, da dann immer entweder 0 oder 2 Münzen aufgedeckt werden und so Spieler A gewinnt. Spieler B muss versuchen immer das Gegenteil von Spieler A zu machen, da dann nur eine Münze aufgedeckt wird und somit Spieler B gewinnt.
Die Spieler können auf Muster im Spieler ihrer Gegner schauen und entsprechend reagieren. Wer diese Muster am besten erkennt, wird das Spiel gewinnen. Es gibt jedoch noch eine andere Option. Angenommen Sie sind Spieler B und sind der Auffassung ein schlechtere Spieler als Spieler A zu sein. Was können Sie also tun?
Sagen wir, Sie entscheiden sich zu x% keine Münze zu zeigen und zu (1-x)% eine Münze zu zeigen. Spieler A ist ein bessere Spieler, er kann unser Muster lesen und wird eine bestimmte Option zu 100% wählen. Angenommen wir entscheiden uns keine Münze zu 75% zu zeigen und eine Münze zu 25%. Somit wäre x = 0.75 und x-1 = 0.25. Spieler A hat das Muster bald erkannt und entscheidet sich keine Münze zu 100% zu zeigen um seinen Erwartungswert (EV) zu maximieren. Warum? Hier ist die EV-Formel für Spieler A:
EV(A) = (1)(X)(Y) + (1)(1-X)(1-Y) + (-1)(X)(1-Y) + (-1)(X-1)(Y) Y gibt den Prozentwert an, wobei A keine Münze zeigt und X der Prozentwert ist, wobei wir (Spieler B) keine Münze zeigen. Die Formel mag kompliziert erscheinen, sie ist es aber nicht. Spieler A gewinnt immer einen Punkt +1, wenn er das Gleiche macht als Spieler B und er bekommt einen negativen Punkt –1, wenn er das Gegenteil macht. Nachdem A ein bessere Spieler ist, weiß er dass x = 0,75 und 1-x = 0,25 ist und kann das in seine EV-Formel integrieren.
EV(A) = (1)(0.75)(Y) + (1)(0.25)(1-Y) + (-1)(0.75)(1-Y) + (-1)(0.25)(Y) EV(A) = 0.75Y + 0.25 – 0.25 Y – 0.75 + 0.75Y – 0.25Y EV(A) = Y – 0.5
Nun muss sich Spieler A nur noch für den Wert für Y entscheiden. Wenn wir wissen, dass Y zwischen 0 und 1 sein muss (es handelt sich schließlich um einen Prozentwert), wird es klar, dass die Formel für Spieler A bei Y = 1 sein Optimum erhält. Sein EV ist dann 1- 0.5 = 0.5 und dass ist auch korrekt. Sollte er sich entschließen mit Y = 1 und keine Münze zu 100% zeigt, gewinnt er zu 75% und bekommt einen Punkt +1 und erhält einen Minuspunkt -1 zu 25%. Zusammen ergibt das: (0.75)(1) + (0.25)(-1) = 0.5.
Nehmen wir nun an, dass wir (Spieler B) genau das Gegenteil machen, so das x = 0.25 und 1-x = 0.75. Wenn wir uns nun Spieler A's EV-Formel anschauen, erhalten wir:
EV(A) = (1)(0.25)(Y) + (1)(0.75)(1-Y) + (-1)(0.25)(1-Y) + (-1)(0.75)(Y) EV(A) = 0.25Y + 0.75 – 0.75Y - 0.25 + 0.25Y -0.75Y EV(A) = -Y + 0.5
Dies ist die EV-Formel von Spieler A, nachdem er unser Muster erkannt hat und wieder muss Y zwischen 0 und 1 sein. Wir können erkennen, dass sein EV am größten ist bei Y = 0, da sein EV dann 0.5 wäre.
Spieler A versucht nun als erstes unsere Strategie herauszufinden (da er besser ist als wir) und unser x zu kalkulieren, um diesen Wert dann in seine EV-Formel einzusetzen. Er wählt dann einen Wert für Y, der seinen EV optimieren wird. Dieser Wert wird immer 0 oder 1 sein, entsprechend der Strategie von Spieler B. Spieler A wird somit immer zu 100% eine Münze oder keine Münze zeigen, da er unsere Strategie kennt (er ist der bessere Spieler).
Aufgrund seines Vorteils wird Spieler A immer die optimale Strategie gegen uns wählen. Er wird zu unserem Erzfeind. Der Erzfeind kennt immer unsere Strategie und wählt immer die beste Gegenstrategie, um seinen EV zu maximieren. Wir fühlen uns hilflos da wir offensichtlich nicht gewinnen können. Wir geben aber nicht auf und suchen nach einer Möglichkeit den Gegner zu besiegen. Wir suchen nach einer optimalen Strategie für uns, mit dem Wissen, dass Spieler A immer mit einer maximalen EV-Strategie reagieren wird.
Wenn wir (Spieler B) uns entscheiden keine Münze zu mehr als 50% zu zeigen, ist unser EV:
EV(B) = (-1)(X) + (1)(1-X) EV(B) = 1 – 2X
Wir erwarten, dass Spieler A zu 100% keine Münze zeigen wird. Wenn wir dann keine Münze zu x% zeigen, wird Spieler A ebenfalls keine Münze zeigen und einen Punkt +1 bekommen, während wir einen Negativpunkt -1 erhalten werden. Die anderen (1-x)% zeigen wir eine Münze, A zeigt jedoch keine Münze, da das seine optimale Strategie ist und wir erhalten einen Punkt +1. Wenn wir uns dann entscheiden eine Münze mehr als 50% zu zeigen, ist unser EV:
EV(B) = (-1)(X) + (1)(1-X) EV(B) = 1 – 2X
Wir erwarten, dass Spieler A zu 100% eine Münze zeigen wird. Wenn wir dann keine Münze zu x% zeigen, wird Spieler A ebenfalls eine Münze zeigen (da dass seine optimale Strategie ist) und wir gewinnen einen Punkt +1. Die anderen (1-x)% zeigen wir eine Münze, genau wie A und verlieren wir einen Punkt –1.
Unser EV hängt also von x ab, wobei x den Prozentwert angibt, dass wir keine Münze in der Hand halten. Wir haben nun zwei verschiedene EV-Formeln für zwei verschiedene Strategien. Strategie 1 sagt, dass wir keine Münze zu mehr als 50% zeigen und wir einen EV von EV = 1 – 2x haben. Strategie 2 sagt, dass wir eine Münze zu mehr als 50% zeigen und somit einen EV von EV = 2x – 1 aufweisen.
Wenn wir nun diese Formeln in einer Graphik darstellen, erhalten wir:
Aus dieser Graphik wird ersichtlich, dass die optimale Strategie für Spieler B ist zu 50% eine Münze zu halten und zu 50% keine Münze zu halten. Obwohl dieses Fazit für viele logisch erscheint, kann es dennoch schwierig sein die Ergebnisse mathematisch zu bestimmen. Wenn man mit komplexeren Situationen zu tun hat, wird es bei der Lösungsfindung sehr hilfreich sein die genauen Prozesse zu kennen. Strategie 1 ist für x = 0.5 bis x = 1 und Strategie 2 für x = 0 bis x = 0.5 möglich. Beide Strategien erreichen ihr Optimum bei x = 0.5, wobei der EV = 0 ist. Wir wissen nun, dass der EV für X ungleich 0.5 negativ ist und können nun mit A spielerisch mithalten. Spieler A kann seinen Vorteil nicht mehr ausnutzen und wird nicht mehr einen höheren EV als 0 erhalten.
Dieses Beispiel zeigt wie die Spieltheorie den Vorteil eines Gegners neutralisieren kann. Die Methode kann auch im Poker eingesetzt werden und im nächsten Teil zeige ich Ihnen wie das geht.
Casinos.ch ist die Gaming & Entertainment-Plattform der Schweiz und mit über 20 Informationsportalen und rund 100 Internetnamen (Domains) das grosse News- und Pressenetzwerk der Casino- und Glücksspielszene in Europa.
Aktuelle News, Interviews, Fotos und spannende Stories - direkt und live aus den Schweizer Casinos, der Spielbankenszene Deutschlands, über das monegassische Casino von Monte Carlo. Weitere Casinos aus ganz Europa und der ganzen Welt finden Sie auf www.casinos.ch. Und last but not least natürlich auch aus der Sin City 'Las Vegas'.
Die Informationen sind unterteilt in die Bereiche Casino-Informationen, aktuelle News, Events, Jackpot und Tournament-Informationen, Fotogalerien, Live- Berichte und Interviews sowie ein täglich wechselndes Glückshoroskop.
Weitere Nachrichten der Gaming-Branche |
Ethik-Kompass für den Schweizer Sport: Erweiterung mit KI und verstärkte Prävention
Bundesamt für Sport BASPO, 04.11.2024 Schweizerische Radio- und Fernsehgesellschaft, 04.11.2024 act entertainment ag, 04.11.20241664 Blanc Weizen Bier 6x33cl
CHF 9.95
Coop
1664 Blanc Weizen Bier 6x50cl
CHF 12.95
Coop
1664 Blanc Weizen Bier Alkoholfrei 6x25cl
CHF 8.50
Coop
1664 Original Lager Bier 12x25cl
CHF 11.95
Coop
1664 Original Lager Bier 24x50cl
CHF 21.90 statt 43.80
Coop
1664 Original Lager Bier 6x50cl
CHF 10.95
Coop
Aktueller Jackpot: CHF 1'072'966