TD-Gammon - TD-Gammon

TD-Gammon Бұл компьютер нарды 1992 жылы жасалған бағдарлама Джеральд Тесауро кезінде IBM Келіңіздер Уотсон атындағы зерттеу орталығы. Оның атауы оның жасанды жүйке торы формасы бойынша оқыды уақытша айырмашылықты оқыту, нақты ТД-лямбда.

TD-Gammon ойын деңгейіне сол кездегі ең жақсы нард ойыншыларынан сәл төмен деңгейде қол жеткізді. Адамдар ұстанбаған стратегияларды зерттеп, нарды дұрыс ойнау теориясының алға жылжуына әкелді.

Ойын және оқу алгоритмі

Ойын барысында TD-Gammon әр айналымда барлық мүмкін болатын заңды әрекеттерді және олардың барлық жауаптарын тексереді (екі -қабат алдағы уақыт ), алынған әрбір тақтаның орнын оның орнына береді бағалау функциясы, және ең көп ұпай жинаған тақта позициясына апаратын қадамды таңдайды. Осыған байланысты TD-Gammon кез-келген басқа компьютерлік үстел ойынының бағдарламасынан еш айырмашылығы жоқ. TD-Gammon жаңалығы оның бағалау функциясын қалай игергендігінде болды.

TD-Gammon оқыту алгоритмі алдыңғы бұрылыстардың тақта позицияларын бағалау мен осы айналымның тақта позицияларын бағалау арасындағы айырмашылықты азайту үшін әр айналымнан кейін жүйке торындағы салмақтарды жаңартудан тұрады »уақытша айырмашылықты оқыту «. Кез-келген тақтаның позициясы дегеніміз - бұл бағдарламаның әр мүмкін болатын ойын нәтижесінің бағасын көрсететін төрт саннан тұратын жиынтығы: Ақ қалыпты жағдайда жеңеді, Қара қалыпты жеңеді, Ақ гаммон жеңеді, Қара қара гаммонды жеңеді. Соңғы тақта позициясы үшін ойынның алгоритмі тақтаның позициясын бағалауға қарағанда, ойынның нақты нәтижесімен салыстырады.^[1]

Әр айналымнан кейін оқыту алгоритмі жүйенің әр салмағын келесі ережеге сәйкес жаңартады:

{ displaystyle w_ {t + 1} -w_ {t} = альфа (Y_ {t + 1} -Y_ {t}) sum _ {k = 1} ^ {t} lambda ^ {tk} nabla _ {w} Y_ {k}}

қайда:

${ displaystyle w_ {t + 1} -w_ {t}}$	- бұл алдыңғы салмақтағы салмақты оның мәнінен өзгерту шамасы.
${ displaystyle Y_ {t + 1} -Y_ {t}}$	ағымдағы және алдыңғы кезек тақтасын бағалау арасындағы айырмашылық.
${ displaystyle alpha}$	Бұл »оқу деңгейі «параметрі.
${ displaystyle lambda}$	тақтаны бағалаудағы қазіргі айырмашылықтың бұрынғы бағалауларға қаншалықты әсер ететіндігіне әсер ететін параметр болып табылады. ${ displaystyle lambda = 0}$ бағдарламаны тек алдыңғы айналымның бағасын дұрыс етеді; ${ displaystyle lambda = 1}$ бағдарламаның барлық бұрылыстардағы бағаларды түзетуге тырысуы; және мәндері ${ displaystyle lambda}$ 0-ден 1-ге дейінгі аралықта ескі бағалаулардың маңыздылығы уақыт бойынша «ыдырауы» керек болатын әр түрлі жылдамдықтар көрсетіледі.
${ displaystyle nabla _ {w} Y_ {k}}$	болып табылады градиент салмаққа қатысты нейрондық-желілік шығу: яғни салмақтың қаншалықты өзгеруі шығысқа әсер етеді.^[1]

Тәжірибелер және жаттығу кезеңдері

Сияқты алдыңғы жүйке-торлық нарды бағдарламалардан айырмашылығы Нейрогаммон (сонымен қатар Тесауро жазған), мұнда сарапшы әр позицияны «дұрыс» бағалауды ұсыну арқылы бағдарламаны оқыды, TD-Gammon алдымен «білімсіз» бағдарламаланған.^[1] Алғашқы эксперименттерде, тек адам ойлап тапқан ерекшеліктері жоқ, тек шикізат тақтасын қолданып, TD-Gammon нейрогаммонмен салыстыруға болатын ойын деңгейіне жетті: адамның орта деңгейлі нарды ойыншысымен.

TD-Gammon өздігінен көрнекі ерекшеліктерді тапқанымен, Тесауро Нейрогаммон сияқты қолмен жасалған функцияларды қолдану арқылы оның ойынының жақсаруы мүмкін бе деп ойлады. Шынында да, TD-Gammon-дің мамандандырылған мүмкіндіктері бар өзін-өзі оқыту көп ұзамай алдыңғы компьютерлік нарды бағдарламаларынан асып түсті. 80 жасырын бірлікті қолданумен шамамен 1500000 ойыннан кейін (өзін-өзі ойнау) жақсарту тоқтатылды.^[2]

Нарда теориясының жетістіктері

TD-Gammon-дың эксклюзивті жаттығуы өзін-өзі ойнау арқылы (тәлімгерліктен гөрі) адамдар бұрын ойламаған немесе қате түрде жоққа шығарған стратегияларды зерттеуге мүмкіндік берді. Оның әдеттен тыс стратегиялармен жетістігі нарды қоғамдастыққа айтарлықтай әсер етті.^[1]

Мысалы, алғашқы ойында әдеттегі даналық 2-1, 4-1 немесе 5-1 орамдары берілгенде, Ақ бір допты 6-шы нүктеден 5-ші нүктеге дейін жылжытуы керек еді. техника соққы қаупін агрессивті позицияны дамыту мүмкіндігіне ауыстырады. TD-Gammon 24-23 арасындағы консервативті ойынның басымырақ екенін анықтады. Турнир ойыншылары TD-Gammon-дің жүрісіне тәжірибе жасап, сәттілікке жетті. Бірнеше жыл ішінде турнир ойындарынан слотинг жоғалып кетті. (Қазір ол 2-1-ге дейін пайда болады, дегенмен.^[3])

Нарда маманы Вулси жиынтығы TD-Gammon-дің позициялық шешімі, әсіресе оның қауіптілікке қауіптілігін өлшеу өзінің немесе кез-келген адамның пікірінен жоғары екенін анықтады.^[1]

TD-Gammon-дің тамаша позициялық ойыны кездейсоқ аяқталған ойындардың астына алынды. Аяқталатын ойын аналитикалық тәсілді қажет етеді, кейде үлкен көзқараспен. TD-Gammon-дың екі қабатты көзқараспен шектелуі ойынның осы бөлігінде қол жеткізе алатын деңгейге жетуге мүмкіндік берді. TD-Gammon-ның күшті және әлсіз жақтары керісінше болды символдық жасанды интеллект бағдарламалар және жалпы компьютерлік бағдарламалық жасақтама: интуитивті «сезімді» қажет ететін мәселелерде жақсы болды, бірақ жүйелік талдауда нашар болды.

Әдебиеттер тізімі

^ ^а ^б ^c ^г. ^e Тесауро, Джералд (1995 ж. Наурыз). «Уақытша айырмашылықты үйрену және TD-гаммон». ACM байланысы. 38 (3). дои:10.1145/203330.203343. Алынған 1 қараша, 2013.
^ Саттон, Ричард С .; Барто Эндрю Дж. (1998). Арматуралық оқыту: Кіріспе. MIT түймесін басыңыз. 11.1-кесте.
^ «Нарда: ашылатын шиыршықтарды қалай ойнауға болады».

[CACM-1] а ^б ^c ^г. ^e Тесауро, Джералд (1995 ж. Наурыз). «Уақытша айырмашылықты үйрену және TD-гаммон». ACM байланысы. 38 (3). дои:10.1145/203330.203343. Алынған 1 қараша, 2013.

[2] Саттон, Ричард С .; Барто Эндрю Дж. (1998). Арматуралық оқыту: Кіріспе. MIT түймесін басыңыз. 11.1-кесте.

[3] «Нарда: ашылатын шиыршықтарды қалай ойнауға болады».

[1]

[2]

[3]

Кестелер ойындар
Тарихи	Ludus duodecim scriptorum Табула Жакет
Заманауи	Acey-deucey Гүл бара Плакото Ссанрюк Сугороку Тапа
Нарды	Нота Ашылу Чуэт FIBS Шығару
Санаттар	Нарды Кестелер Ойыншылар