Мавен (Scrabble) - Maven (Scrabble)

Maven болып табылады жасанды интеллект Scrabble Брайан Шеппард жасаған ойыншы. Ол ресми лицензиясында қолданылған Хасбро Scrabble ойындары.

Алгоритмдер

Ойын кезеңдері

Maven-тің ойын ойыны үш кезеңге бөлінеді: «орта ойын» кезеңі, «алдыңғы ойын» кезеңі және «соңғы ойын» кезеңі.

«Ойынның ортасы» кезеңі ойын басталғаннан бастап тоғыз немесе одан аз қапшықта қалған тақтайшаларға дейін созылады. Берілген тіректен барлық ықтимал пьесаларды табу үшін бағдарлама жылдам алгоритмді пайдаланады, содан кейін бағдарламаның «кибитцер» деп аталатын бөлігі оларды қарапайым сапа бойынша сұрыптау үшін қарапайым эвристиканы қолданады. Содан кейін ең перспективалы қадамдар «симминг» арқылы бағаланады, онда бағдарлама плиткалардың кездейсоқ суретін имитациялайды, пьесалардың белгіленген санын алға шығарады және жүрістер нәтижелерінің таралу нүктелерін салыстырады. Мыңдаған кездейсоқ суреттерді имитациялау арқылы бағдарлама әртүрлі пьесаларға өте дәл сандық баға бере алады. (Монте-Карлоны іздеу кезінде, Maven қолданбайды Монте-Карло ағаштарын іздеу өйткені ол ойын ағаштарын ойын соңына дейін ойнағаннан гөрі 2 қабатты тереңдікте ғана бағалайды және тереңірек барлау үшін перспективалы бұтақтарға қайта бөлуді бөлмейді; жылы арматуралық оқыту Maven іздеу стратегиясын «Монте-Карлоның қысқартылған имитациясы» деп санауға болады. Шынайы MCTS стратегиясы қажет емес, өйткені соңғы ойын шешілуі мүмкін. Таяз іздеу - бұл Мавен авторының дәлелдеуі^[1] сөмкелердегі хаттардың тез айналымына байланысты, әдетте екі қабатты терең қарау пайдалы емес, өйткені егер оның орнына тереңірек көрінетін болса, мысалы. 4 қабатты, дисперсия Сыйақылар үлкенірек болады және модельдеу бірнеше рет ұзаққа созылады, сонымен қатар бірнеше экзотикалық жағдайларда ғана көмектеседі: «Егер біз төрт қабатты модельдеудің мәнін білу үшін CACIQUE сияқты экстремалды жағдай қажет болса, онда олар оларға тұрарлық емес деп санаймыз істеп жатыр. « Scrabble-да тақтаның мәнін өте жоғары дәлдікпен бағалауға болады, мысалы ойындардан айырмашылығы Барыңыз, тереңірек имитациялар бастапқы бағалауды өзгерте алмайды.)

«Ойын алдындағы» кезең «ойынның орта кезеңі» сияқты дерлік жұмыс істейді, тек ол ойынның жақсы жағдайын жасауға тырысады.

«Аяқталған ойын» кезеңі қапшықта плитка қалмаған бойда өтеді. Екі ойыншы ойындарында бұл ойыншылар енді әріптерді үлестіруден бір-бірінің тіректеріндегі тақтайшаларды анықтай алатындығын білдіреді. Maven пайдаланады B жұлдызды іздеу алгоритмі соңғы ойын кезеңінде ойын ағашын талдау.

Ұрпақты жылжытыңыз

Maven жылжу генерациясы үшін бірнеше алгоритмдерді қолданды, бірақ ол тұрып қалған DAWG алгоритм. The ГАДДАГ алгоритм жылдамырақ, бірақ солтүстік американдық ағылшын тілі үшін DAWG тек 0,5 МБ құрайды, ал GADDAG үшін шамамен 2,5 МБ. Бұл жүктеу ойындары үшін айтарлықтай өзгеріс әкеледі, ал жылдамдықтың артықшылығы маңызды емес. (Маңызды емес айырмашылық аз дегенді білдірмейді, тек пайдаланушылар айырмашылықты анықтай алмайтынын ескеріңіз. GADDAG екі есе жылдам, бірақ екі алгоритм де жеткілікті жылдам).

Сөрені бағалау

Maven-тің бірінші (1986) нұсқасында тіректерді бағалау үшін 100-ге жуық өрнектер жиынтығы қолданылған. Әр тақтайшаның мәні болды (27 өрнек). Әр дубликаттың мәні болды (22 өрнек). Сөмкеде жеткілікті түрде бейнеленген үш данаға және хаттарға арналған төртбұрыштар болды. Ақырында, QU комбинациясы үлгі болды.

Көп ұзамай бірінші нұсқадан кейін Maven дауысты / дауыссыз баланс және Q / U таралуы үшін тіректі бағалау шарттарын сатып алды. Дауысты / дауыссыз теңгерім сөреде қалған дауысты және дауыссыз дыбыстардың санына негізделген кестені іздеу болды. Q / U үлестірімі Q және U мәндерін кестеде іздеуді қолданып, олардың әрқайсысы пакетте қалғанын көрсетті.

Осыдан кейін көп ұзамай Maven тақтайшаның қайталануын бағалаушыға ие болды. Түпнұсқаны салу мүмкіндігіне байланысты сөрені түрлендіру идеясы болды. Мысалы, А плитка ретінде қарағанда менден гөрі жақсырақ, бірақ егер сөмкеде 7 А және тек 2 Мен қалса, онда біз I-ді сақтауды жөн көрдік.

Параметрді орнату болашақ баллдардың жалпы санын болжау үшін мәндерді баптау арқылы жүзеге асты. Қазіргі уақытта бұл атау болар еді Уақытша айырмашылықты үйрену.

Бұл тіректі бағалау дизайны Maven үшін ерекше болды. Бұл күннің адамзаттық чемпиондарымен бәсекелестікте өте сәтті болды.

Кейін бұл дизайн басқа зерттеушілермен кеңейтілді. Марк Уоткинс «тақтайшалар синергиясының үлгілері» деп атады. Бұл көптеген ұпай жинайтын сөздердің негізін қалайтын ADES сияқты тіркесім. Бұл дизайнның табиғи кеңеюі, бұл ойынды айтарлықтай жақсартады. Maven өрнектер жиынтығы біртіндеп 100-ден 400-ге дейін кеңейді.

Maven содан бері Джон О'Лауфлин ұсынған және жүзеге асырылған мүлде басқа архитектураға көшті Quackle. Бұл «толық» архитектура, мұнда бағдарлама 0-ден 7-ге дейінгі плиткалардың 3 миллион мүмкін комбинацияларының әрқайсысы үшін тіректі бағалаудың әртүрлі параметріне ие. Соңғы онжылдықтағы компьютерлік қуаттың жетістіктерімен осындай үлкен параметрлер жиынтығын реттеу мүмкіндігі туды.

Толық тәсілді қолданудың минусы - Maven пакетте қалған тақтайшалардың функциясы ретінде әр түрлі бағалау мүмкіндігін жоғалтуында. Мұның мәні мынада: тіректі толық бағалаушыда тіректің құнын сөмкеден ықтимал сызбалармен байланыстыратын терминдер жоқ.

Maven ұсынған тіректі толық бағалау нұсқасы бұл қабілетті толықтырды. Maven-де әр тіректің өзіндік лайнер бағалаушысы бар, мұнда сол тіректің мәні дубликат салу мүмкіндігі, дауысты дыбыс шығару мүмкіндігі және Q мен U сурет салу мүмкіндігі сияқты өзгереді. Бұл жүйеде 5 параметр бар бір тірекке, барлығы 15 миллион параметрге арналған.

Модельдеу

Адамзаттың ұлы чемпионы Рон Тиекерт Scrabble-ді жеке позицияларды ондаған рет ойнау және нәтижелерді шығару арқылы зерттеген. Ол Maven жылдамдығымен бұл процесті түнгі уақытта автоматтандыруға мүмкіндік беру керек деп ұсынды. Брайан Шеппард бұл процесті «модельдеу» деп атады, дегенмен ол нарда «роллот», ал Go-де «playout» деген атпен жүреді.

Процесс ұпай + тірек эвристикасын қолданып N үміткердің қадамын таңдау болды. Содан кейін осы қимылдарды жүздеген немесе мыңдаған рет ойнатып, қай кандидаттың жақсы өнер көрсететінін көріңіз. Ойынның тереңдігін мақсатыңызға сәйкес өзгертуге болады; нүктелік дифференциал туралы жақсы түсінік алу үшін алға екі немесе төрт жүрісті ойнаңыз немесе жеңіске жету мүмкіндігін өлшеу үшін ойын соңына дейін ойнаңыз.

1990 жылдардың ортасына қарай компьютерлер жылдамдыққа ие болды, сондықтан Maven турнир уақытының бақылауымен бәсекелі ойындарда қимылдарды таңдау үшін симуляцияны қолданды. Алгоритмдік жетілдіру осы мақсат үшін модельдеуді масштабтау үшін маңызды болды. Ең маңызды жаңашылдық - үміткерлерге көбірек сыналатын үміткерлерге күш-жігерді жұмсау үшін оларға берілген сынақтардың санын өзгерту. Кандидаттардың барлық қадамдары бірдей, әділетті таралуға қарсы алынуы үшін сөрелерді бақылау да пайдалы болды.

Мавеннің имитациялық қозғалтқышы ойнайтын ойындардың талдауы Мавеннің адамзат чемпиондарының шеберлік деңгейінен асып түскенін көрсетеді.

Ойын

Scrabble ойындарында күшті ойын көрінгенге қарағанда әлдеқайда қиын. Теориялық ойындар - бұл тамаша ақпараттың ойыны, сондықтан Альфа-бета кесу алгоритм жұмыс істеуі керек. Бірақ іс жүзінде Альфа Бета Scrabble-де нашар жұмыс істейді.

Альфа-Бета проблемасы - кейбір Scrabble ойындары ойнау үшін 14 жүрісті қажет етеді және мұны терең іздеу мүмкін емес. Бұл тек теориялық мүмкіндік емес. Бір ойыншы плиткамен «кептеліп» қалған кезде, қалған барлық плиткаларды ойнау мүмкін емес. Бұл жағдайда екі жақтың да оңтайлы стратегиясы әр айналымда бір плитканы ойнау болып табылады.

Maven басқаша тәсілді қолданады. The B * іздеу алгоритмі - бұл әр позицияның мәндері бойынша жоғарғы және төменгі шектерді есептеуге болатын кезде екі ойыншы ойындарының оңтайлы шешімдерін табуға кепілдік беретін іріктемелі, прогрессивті кеңейту алгоритмі.

Ойын позицияларының жоғарғы және төменгі шекараларын бағалауға болады екен. Бұл шектер позициялардың басым көпшілігі үшін дұрыс (яғни нақты мән аралықта болады). В * шекарасында қателіктердің аз пайызы болған кезде ақылға қонымды болғандықтан, Maven басқа тәсілдер орындай алмайтын ойын ойындарын шеше алады.

Әрі қарай жетілдіру Maven-тің эндгеймдік шешімдерін қателер болған жағдайда да асимптотикалық оңтайлы етеді. Егер B * іздеуі бір жүрістің ең жақсы екендігінің дәлелімен аяқталғанда және әлі де уақыт қалса, онда Maven бағаларын 1 ұпайға кеңейтіп, қайтадан іздейді. Бұл қайта іздеулер әдетте өте тез жүреді, өйткені алдыңғы іздеудегі ағаш әлі де күшінде. Осы саясатты бірнеше рет қолдану ең кіші (және, мүмкін, мүмкін) қателерден бастап, қателерді біртіндеп анықтайды.

Аяқталған алдын-ала ойын

Қапта тек 1 немесе 2 плитка қалғанда («PEG-1» немесе «PEG-2»), мемлекеттік кеңістікті толық іздестіруге болады.

PEG-1 корпусы маңызды, өйткені ойындардың жартысына жуығы осы күйден өтеді. Maven мұндай күйлерді барлық жағдайда дерлік ойнай алады. Яғни, барлық заңды қадамдар үшін Maven нәтижесінде пайда болған ойын ойындарын ойнай алады (әр заңды қадам үшін 8-ге дейін) және әр жағдайда ойында қай тарап жеңіске жететінін есептей алады. Қосымша күш жұмсауды қажет ететін кейбір жағдайлар бар (мысалы, екі бос орын, Q-мен бірге), есептеу біртіндеп орындалады. Яғни, Maven шешімді жақын әрі маңызды жерде алдымен талдауын кеңейтеді.

PEG-2-де, әдетте, барлық қозғалыс тізбегін толықтай қарау мүмкін емес, сондықтан Maven қол жетімді уақытқа дейін барады.

Төмен плиткалардағы жағдайлардың бір ерекшелігі - заңды қадамдардың тізімін қауіпсіз кесу өте қиын. Мысалы, оңтайлы ойын уақыттың 1% -дан астамы стакан + тірек эвристикалық 50-ден астам қозғалыстың артында тұр.

Бұл саясат теориялық тұрғыдан жетілдірілген ойын шығармайды, өйткені көрінбейтін тақтайшалардың шынайы бастапқы таралуы қандай болуы мүмкін екенін білу мүмкін емес. Біркелкі үлестіруді жақсы деп санаймыз және сол болжам бойынша шекті жақсаратын көрінбейтін плиткалар туралы қорытындыларды есептеуге болады.

Тағы бір шектеу - Maven мұндай жағдайлардың «жасырын ақпарат» аспектісіне жүгінбейді. Яғни, теория жүзінде ойыншылар ықтималдық үлестіріміне сәйкес кездейсоқ қадамдарды таңдау арқылы күтуді максималды ететін жағдайлар бар. Maven - әр түйінде таза стратегияларды таңдау.

Әдебиеттер тізімі

^ pg14, Sheppard 2002

Шеппард, Брайан (2002). «Әлем чемпионаты-калибрлі Scrabble» (PDF). Жасанды интеллект. 134 (1–2): 241–275. дои:10.1016 / S0004-3702 (01) 00166-7.

Сыртқы сілтемелер

[1] 14, Sheppard 2002

[1]