Kamil Klyta 209356
- Sprawozdanie: „Podstawy gier logicznych” - algorytm min-max na podstawie gry kółko i krzyżyk
- 1. Nawigacja
- 2. Wstęp
- 3. Implementacja
- 4. Gotowa aplikacja
- 5. Bibliografia
Algorytm min-max (ang. Minimax, MM or saddle point) - jest to algorytm / zasada mówiąca nam o tym jak powinniśmy podejmować decyzje. Algorytm ten jest używany w wielu różnych dziedzinach nauk (nie tylko matematycznych). Znalazł szerokie zastosowanie w sztucznej inteligencji, teorii podejmowania decyzji, statystyce, ekonomi, grach logicznych, filozofi i wielu, wielu innych miejscach.
Algorytm swoje początki zawdzięcza właśnie teorii gier a dokładnie speficznej dziedzinie gier logicznych w której to gracze wykonują ruchy na zmianę. Głównym zadaniem algorytmu jest znalezienie najlepszego możliwego ruchu w kązdym momencie gry przy założeniu, iż gracz dąży do wygranej (maksymalizacja szansy na wygraną, minimalizacja szansy na przegraną). Przy grach z bardzo dużą liczbą możliwośći algorytm min-max czasem staje się algorytmem zbyt złożonym, wówczas należy poszukać lepszego, wydajniejszego rozwiązania o lepszej złożoności, często są to indywidualne rozwiązania dla poszczególnych problemów (2.4).
Jednym z lepszych sposobów na zobrazowanie działania algorytmu jest przedstawienie jego działania na podstawie grafu a dokładniej drzewa przeszukiwań. Zależnie od implementacji algorytmu i gry (problemu) do którego algorytm został zastosowany jest możliwość aby algorytm miał wiele ścieżek, przegrywających i wygrywających bądź nawet w przpydku niektórych gier (w tym poruszanej gry w kółko i krzyżyk) również ścieżek remisujących.
Przy takim założeniu stosując ten algorytm powinniśmy przeanalizować i dokonać wyboru ścieżki / ścieżek ze:
- zmaksymalizowaną liczbą (zawierającą w sobie dużo) ścieżek prowadzących do wygranej
- zminimalizowaną liczbą ścieżek prowadzących do przegranej
- ewentualnie gdy wygrana nie jest możliwa natomiast możliwe jest zremisowanie to wybrać ścieżki które dają największą gwarancje remisu
Rozważając założenia algorytmu, rozsądnym wydaje się wybór ścieżek w których:
- nie istnieje szansa na porażkę
- nie zawiera ścieżki
dead end
(ślepej uliczki) - ktora prowadzi do pewnej przegranej z której nie możemy się wycofać - istnieje zmaksymalizowana szansa na przegraną przeciwnika (w niektórych grach przegrana przeciwnika nie gwarantuje naszej wygranej, lecz na przykład przez niespełnione warunki może przynieść nam remis, co czasem jest bezpieczniejszą opcją niż doprowadzić do naszej przegranej usiłując doprowadzić do wygranej)
Funkcja kosztu definiuje ruchy przeprowadzane w grze. Na podstawie przyjętych przez nas założeń wybiera najlepsze dla nas ścieżki i przypisuje im odpowiednie wagi. Jej poprawne zdefiniowanie jest kluczowym elementem algorytmu min-max.
Istnieją różne metody optymalizacji drzewa przeszukiwań, jedną z nich jest zmniejszanie zbioru przeszukiwanych danych (obcinanie drzewa). Jedną z metod obcinania jest metoda alpha-beta pruning
. Metoda ta zakłada ustalenie jak sama nazwa mówi wartości α
i β
które pełnią rolę pewnego rodzaju ogranicznika rozważanych danch. Stanowią one bowie odpowiednio najmniejszą i największą rozważaną wartość węzła nadaną przez funkcje kosztu (2.3.2)
W celu przedstawienia działania algorythmu min-max w praktyce zaimplementowałem go do tytułowej gry w kółko i krzyżyk (ang. Tic-Tac-Toe). Zdecydowałem się na użycie technologi webowej a dokładnie języka TypeScript
i frameworka React
.
Na samym początku postanowiłem stworzyć plansze i ogólny design strony który jednak nie będzie przeze mnie omawiany w tym sprawozdaniu, jako że chcę się głównie skupić na samym kodzie algorytmu min-max.
const getBestMove = ({
maximizing = false,
depth = 0,
position = { column: -1, row: -1 },
positionsWithCostsCallback,
currentValues
}: BestMoveConfig = {}): PositionWithCost => {
const {
MIN_MAX_DRAW_RESULT,
MIN_MAX_RESULT_VALUE,
MIN_MAX_DEPTH_INCREMENT_VALUE
} = TicTacBoard;
const isEnd = this.isEnd();
if (isEnd !== WinnerType.NONE) {
switch (isEnd) {
case WinnerType.X:
return { ...position, cost: MIN_MAX_RESULT_VALUE - depth };
case WinnerType.O:
return { ...position, cost: -MIN_MAX_RESULT_VALUE + depth };
case WinnerType.REMIS:
return { ...position, cost: MIN_MAX_DRAW_RESULT };
}
}
const typeOfPlayer: Player = maximizing ? Player.X : Player.O;
const possiblePositions: Array<Position> = this.getPossiblePositions();
const positionsWithCost: Array<PositionWithCost> = possiblePositions.map<
PositionWithCost
>(
(position: Position): PositionWithCost => {
const newBoard: TicTacBoard = this.put(position, typeOfPlayer);
const { cost } = newBoard.getBestMove({
maximizing: !maximizing,
depth: depth + MIN_MAX_DEPTH_INCREMENT_VALUE,
position
});
return { ...position, cost };
}
);
const [minMaxElem] = positionsWithCost.sort(
maximizing
? this.descPositonWithCostArraySort
: this.ascPositonWithCostArraySort
);
const minMaxElemsPositions: Array<
PositionWithCost
> = positionsWithCost.filter(({ cost }) => cost === minMaxElem.cost);
const selectedRandomPosition = this.getRandomItemFromArray(
minMaxElemsPositions
);
if (typeof positionsWithCostsCallback === "function")
positionsWithCostsCallback(
positionsWithCost.map(({ column, row, cost }) => ({
column,
row,
cost,
typeOfPlayer,
seleced:
selectedRandomPosition.column === column &&
selectedRandomPosition.row === row
})),
currentValues
);
return selectedRandomPosition;
};
Na samym pocztku przyrzyjmy się deklaracji (argumentą) funkcji której zadaniem jest jak sama nazwa mówi zwrócić najlepszy ruch
const getBestMove = ({
maximizing = false,
depth = 0,
position = { column: -1, row: -1 },
positionsWithCostsCallback,
}: BestMoveConfig = {}): PositionWithCost => {
funkcja przyjmuje dość sporą liczbę argumentów, jednak większość jest używana do odpowiedniego przedstawainia informacji w aplikacji webowej. Argumenty które z punktu widzenia algorytmu mają największe znaczenie to maximizing
, depth
, i position
. Cała struktura danych jest zdefiniowana w następujący sposób:
export type BestMoveConfig = {
depth?: number;
maximizing?: boolean;
position?: Position;
positionsWithCostsCallback?: (
positionsWithCost: Array<PositionInfo>,
prevValues: TicTacBoardData | undefined
) => void;
};
Omówienie argumentów algorytmu:
depth
- Jest to numer oznaczający głębokość naszego rekurencyjnego przeszukiwania. Dla pierwszego uruchomienia naszej funkcji wartość głębokości powinna wynosić0
( - tyle również wynosi jej domyślna wartość). Wartość ta jest inkrementowana dla każdego kolejnego rekurencyjnego wywołania funkcjimaximizing
- Zmienna przyjmująca wartości logicznetrue
lubfalse
. W zależności od przyjętej wartości algorytm będzie odpowiednio szukał wartości maksymalnej bądź minimalnej.position
- Pozycja której wybór rozważamy (ma znaczenie dla rekurencyjnych wywołań funkcji)positionsWithCostsCallback
- wywołanie wsteczne zawierające wszystkie rozważane pozycje wraz z ich kosztem jak i aktualne wartości planszy (zmienna pomocnicza do poprawnego rysowania UI)
Omówienie wartości zwracanej
- Algorytm zwraca pozycje wraz z kosztem
{ column: number, row: number, cost: number }
Następnie wykonywane jest sprawdzenie planszy w poszukiwaniu informacji czy gra została skończona po czym zostaje zwrócona odpowiednia wartość, jeśli podczas tego wywołania funkcji gra jest zakończona z funkcji zostanie zwrócony koszt (zmaksymalizowany/powiększony o 100 dla wygranej gracza X
bądź zminimalizowany/zmniejszony dla wygranej gracza O
dodatkowo odpowiednio dodana lub odjęta wartość głębokości (ma znaczenie w przypadku poszukiwania najszybszego rozwiązania gry). W przypadku remisu zwrócona zostanie wartość neutralna 0
).
const isEnd = this.isEnd();
if (isEnd !== WinnerType.NONE) {
switch (isEnd) {
case WinnerType.X:
return { ...position, cost: MIN_MAX_RESULT_VALUE - depth };
case WinnerType.O:
return { ...position, cost: -MIN_MAX_RESULT_VALUE + depth };
case WinnerType.REMIS:
return { ...position, cost: MIN_MAX_DRAW_RESULT };
}
}
- Następnie jeśli gra nie została zakończona określany jest typ gracza dla którego szukamy możliwej ścieżki ruchu (jeśli szukamy wartości maksymalizowanych to szukamy gracza
X
w przeciwnym przypadkuO
). - Po ustaleniu gracza, wyszukujemy wszystkie możliwe (wolne) pozycje na planszy
- Dla każdej pobranej pozycji obliczamy koszt tej ścieżki rozpoczynając rekurencje.
- Podczas wywołania rekurencyjnego algorytmu negujemy wartość zmiennej
maximizing
gdyż w kolejnym ruchu wyszukujemy wartości najlepszej ścieżki dla przeciwnika - Zwiększamy wartość zmiennej
depth
o wcześniej przyjętą wartość (w moim przypadku jest to1
) - Przekazujemy aktualnie wybraną pozycje
- Otrzymujemy obiekt z kosztem i pozycją
- Zwracamy otrzymaną wartość pozycji z kosztem
const typeOfPlayer: Player = maximizing ? Player.X : Player.O; // 1.
const possiblePositions: Array<Position> = this.getPossiblePositions(); // 2.
const positionsWithCost: Array<PositionWithCost> = possiblePositions.map< // 3.
PositionWithCost
>(
(position: Position): PositionWithCost => { // 7.
const newBoard: TicTacBoard = this.put(position, typeOfPlayer);
const { cost } = newBoard.getBestMove({
maximizing: !maximizing, // 4.
depth: depth + MIN_MAX_DEPTH_INCREMENT_VALUE, // 5.
position // 6.
});
return { ...position, cost }; // 8.
}
);
- Z wcześniej otrzymanych kosztów wybieramy największy bądź najmniejszy w zależności od przyjętej wartości zmiennej
maximizing
- Z otrzymanych wyników wybieramy tylko te maksymalne bądź minimalne
- Wybieramy losowy element (pozycję) o minimalnej bądź maksymalnej wartości kosztu
- Zwracamy wybraną wartość
const [minMaxElem] = positionsWithCost.sort(
maximizing
? this.descPositonWithCostArraySort
: this.ascPositonWithCostArraySort
); // 1.
const minMaxElemsPositions: Array<
PositionWithCost
> = positionsWithCost.filter(({ cost }) => cost === minMaxElem.cost); // 2.
const selectedRandomPosition = this.getRandomItemFromArray(
minMaxElemsPositions
); // 3.
// ***
// callback w celu zaktualizowania widoku aplikacji
// ***
return selectedRandomPosition; // 4.
Finalna wersja aplikacji jest dostępna pod tym adresem tic-tac-toe.klyta.it Kod aplikacji jest dostępny w repozytorium: link do kodów aplikacji