Споделуваме знаење

Примената на AI во шаховската игра

ИСТОРИЈА, МОЖНОСТИ, ИДНИНА

Оливер Таневски

Data Scientist at Data Masters

Оливер Таневски

Data Scientist at Data Masters

Споделуваме знаење

Примената на AI во шаховската игра

ИСТОРИЈА, МОЖНОСТИ, ИДНИНА

MAN VS MACHINE

Ако постои игра која го победила тестот на времето и до ден денес ужива популарност, тоа дефинитивно е шахот. Но, обидот да се предизвика и надмине човекот во оваа игра е тема сама по себе. Историјата вели дека првата машина што играла шах била создадена околу 1770 година и се викала The Turk. Изгледала како еден вид на кабинет со запчаници, на кој имало фигура облечена во човечка облека што механички можела да ги движи фигурите. Фигурата импресивно за тоа време можела да се движи и да прави потези. Оваа атракција пропатувала низ Европа и Америка и успеала на големо воодушевување на луѓето да победи мошне добри играчи во шах, за на крајот да се покаже дека се работело за измама. Во рамки на кабинетот се криел мошне умешен шахист 🙂

The Turk
(The Turk)

Историјата воедно бележи големи ривалства во оваа игра во која стратегијата и предвидувањето на потезите на противникот се клучни. Некогаш светот едвај ги очекувал пресметките меѓу шаховски легенди како Каспаров и Карпов, но историјата бележи и малку поинаков вид на ривалства, односно пресметки со суперкомпјутер. Најдобриот пример за ова е дуелот помеѓу Deep Blue (суперкомпјутерот на IBM) и Гари Каспаров. Во првиот меч кој се одржа во 1996 година Каспаров победи, но затоа пак вториот одигран во 1997 година беше добиен од суперкомпјутерот (доколку сакате да дознаете повеќе за ова ривалство изгледајте го документарниот филм The Man Vs The Machine).

The Turk
(The Turk)

Токму ова ривалство е одлична основа за дебатата – колку креативноста и знаењето на човекот може да биде надминато од компјутерите? Каспаров има доста коментари на оваа тема и во неколку наврати ја истакнува креативноста на човечкиот ум како предност, но истовремено ќе рече дека и „најдисциплираниот човечки ум може да застрани во жарот на борбата“.

Битката на човекот и компјутерот во шахот е нешто што очигледно беше предмет на интерес на истражувачите уште пред неколку децении. А она што започна со Deep Blue, продолжи со други обиди, меѓу кои е и компјутерската програма AlphaZero создадена во 2017 година која од нула преку континуирано учење самата научи како врвно да перформира во шах. Пристапот на креаторите бил програмата да учи сама од себе, од своите игри, наместо од игри одиграни од луѓе.

Гари Каспаров

(Гари Каспаров)

AlphaZero има поинаков пристап во учење на играта. Наједноставно објаснето, правилата што веќе постојат ги има заменето со длабоки невронски мрежи и алгоритми кои не знаат ништо за играта освен основните правила. За да ја научи секоја игра/потег нетренирана невронска мрежа игра милиони игри преку процес на обиди и грешки. На овој начин ги учи паметните потези со цел да може да влече подобри потези во иднина. Со појавата на AlphaZero и актуелноста на невронските мрежи, се смени начинот на разбирање на потезите во шахот како и принципот на правење на една програма за шах. Има многу компоненти кои ја сочинуваат оваа програма, но 3 од нив се најбитни:

• Модел за евалуација на дадена позиција
• Модел за генерирање на потег
• Алгоритам за бирање на најдобриот потег за дадената позиција

Моделите користат невронски мрежи во позадина кои што се тренирани врз база на метод наречен Reinforcement Learning (учење преку награда) каде што за секој добар потег моделот добива награда што е позитивен број, додека за секој лош потег добива казна т.е. негативен број. Крајната цел е моделот да прави потези каде што ќе добие најголема награда. Но, дефинирањето на наградата или казната е еден од најтешките предизвици при користење на Reinforcement Learning како метод. Исто така доста битно е како една позиција во шахот е дефинирана, каде што и при мала нејаснотија во дефинирањето на една позиција може драстично да смени како еден модел прави потези и ја евалуира позицијата. Генерираните потези заедно со евалуацијата за дадена позиција се внесуваат во посебен алгоритам кој што го дава најдобриот потег.

Токму ова ривалство е одлична основа за дебатата – колку креативноста и знаењето на човекот може да биде надминато од компјутерите? Каспаров има доста коментари на оваа тема и во неколку наврати ја истакнува креативноста на човечкиот ум како предност, но истовремено ќе рече дека и „најдисциплираниот човечки ум може да застрани во жарот на борбата“.

Битката на човекот и компјутерот во шахот е нешто што очигледно беше предмет на интерес на истражувачите уште пред неколку децении. А она што започна со Deep Blue, продолжи со други обиди, меѓу кои е и компјутерската програма AlphaZero создадена во 2017 година која од нула преку континуирано учење самата научи како врвно да перформира во шах. Пристапот на креаторите бил програмата да учи сама од себе, од своите игри, наместо од игри одиграни од луѓе.

Гари Каспаров

(Гари Каспаров)

AlphaZero има поинаков пристап во учење на играта. Наједноставно објаснето, правилата што веќе постојат ги има заменето со длабоки невронски мрежи и алгоритми кои не знаат ништо за играта освен основните правила. За да ја научи секоја игра/потег нетренирана невронска мрежа игра милиони игри преку процес на обиди и грешки. На овој начин ги учи паметните потези со цел да може да влече подобри потези во иднина. Со појавата на AlphaZero и актуелноста на невронските мрежи, се смени начинот на разбирање на потезите во шахот како и принципот на правење на една програма за шах. Има многу компоненти кои ја сочинуваат оваа програма, но 3 од нив се најбитни:

• Модел за евалуација на дадена позиција
• Модел за генерирање на потег
• Алгоритам за бирање на најдобриот потег за дадената позиција

Моделите користат невронски мрежи во позадина кои што се тренирани врз база на метод наречен Reinforcement Learning (учење преку награда) каде што за секој добар потег моделот добива награда што е позитивен број, додека за секој лош потег добива казна т.е. негативен број. Крајната цел е моделот да прави потези каде што ќе добие најголема награда. Но, дефинирањето на наградата или казната е еден од најтешките предизвици при користење на Reinforcement Learning како метод. Исто така доста битно е како една позиција во шахот е дефинирана, каде што и при мала нејаснотија во дефинирањето на една позиција може драстично да смени како еден модел прави потези и ја евалуира позицијата. Генерираните потези заедно со евалуацијата за дадена позиција се внесуваат во посебен алгоритам кој што го дава најдобриот потег.

AlphaZero има поинаков пристап во учење на играта. Наједноставно објаснето, правилата што веќе постојат ги има заменето со длабоки невронски мрежи и алгоритми кои не знаат ништо за играта освен основните правила. За да ја научи секоја игра/потег нетренирана невронска мрежа игра милиони игри преку процес на обиди и грешки. На овој начин ги учи паметните потези со цел да може да влече подобри потези во иднина. Со појавата на AlphaZero и актуелноста на невронските мрежи, се смени начинот на разбирање на потезите во шахот како и принципот на правење на една програма за шах. Има многу компоненти кои ја сочинуваат оваа програма, но 3 од нив се најбитни:

• Модел за евалуација на дадена позиција
• Модел за генерирање на потег
• Алгоритам за бирање на најдобриот потег за дадената позиција

Моделите користат невронски мрежи во позадина кои што се тренирани врз база на метод наречен Reinforcement Learning (учење преку награда) каде што за секој добар потег моделот добива награда што е позитивен број, додека за секој лош потег добива казна т.е. негативен број. Крајната цел е моделот да прави потези каде што ќе добие најголема награда. Но, дефинирањето на наградата или казната е еден од најтешките предизвици при користење на Reinforcement Learning како метод. Исто така доста битно е како една позиција во шахот е дефинирана, каде што и при мала нејаснотија во дефинирањето на една позиција може драстично да смени како еден модел прави потези и ја евалуира позицијата. Генерираните потези заедно со евалуацијата за дадена позиција се внесуваат во посебен алгоритам кој што го дава најдобриот потег.

Резултатот од AlphaZero е импресивен. Всушност, некои велат дека програмата успева да прави нешта што не се разбирливи за човекот.

Каспаров има коментар и за оваа програма или како што вели тој:

Не можам да го скријам задоволството од тоа што програмата игра со многу динамичен стил, кој многу наликува на мојот“.

Земајќи го сето ова погоре и напредокот што AI го направи во оваа игра, се поставува прашањето како ова може да ѝ користи на
играта која во суштина е игра меѓу луѓето?

ИДНИНАТА НА ШАХОВСКАТА ИГРА

Гледано од аспект на аматери кои сакаат да научат подобро да играат шах, вештачката интелигенција помага да станете се разбира подобри. Со внимание и следење на анализи, можете да научите потези и логиката зад нив за кои ќе ви треба многу време, ако го правите сами или можеби никогаш не би научиле доколку не го видите презентираното решение.

За професионалните играчи ова изгледа малку поинаку. Нештата во суштина добија нова димензија и човекот и машината ги сменија местата – ако некогаш машината учеше за да го победи човекот, сега човекот учи од машината за да се подобри себе. Веројатно клучната цел е човекот со помош на машината да научи работи кои досега не му биле поимливи или видливи во рамки на способностите. Демис Хасабис (британски истражувач по вештачка интелигенција и петкратен победник во Pentamind) своевремено ќе изјави дека гледајќи како игра AlphaZero, сфатил дека жртвувањето на фигури не мора да постигне само кратка стратешка предност, туку и долгорочна позициона предност.

Но, сепак главната поента на тоа како вештачката интелигенција може да му помогне на професионален шахист е во анализата на самата игра. Откако ќе се одигра еден натпревар, симулацијата може да покаже кој потег било подобро да се изведе и потоа останува на човекот да ги запомни можностите, но и да ги примени. Несомнено, човечкиот ментален капацитет да издржи под притисок мислејќи ги комбинациите на таблата дава тежина на играта и тука е нејзината убавина, но подобрувањето што може да се добие како резултат на примена на вештачката интелигенција не може да се негира.

Од нашиот блог