Кластердің таңбалануы - Cluster labeling - Wikipedia

Жылы табиғи тілді өңдеу және ақпаратты іздеу, кластерлік таңбалау а шығарған кластерлерге сипаттайтын, адам оқитын белгілерді таңдау мәселесі болып табылады құжаттар кластері алгоритм; стандартты кластерлеу алгоритмдері әдетте мұндай белгілерді жасамайды. Кластерді таңбалау алгоритмдері әр кластердің тақырыбын қорытындылайтын және кластерлерді бір-бірінен ажырататын таңбалауды табу үшін кластердегі құжаттардың мазмұнын зерттейді.

Дифференциалды кластерді таңбалау

Дифференциалды кластердің таңбалануы терминді салыстыру арқылы кластерге белгі қояды тарату кластерлер бойынша, сондай-ақ қолданылатын техниканы қолдана отырып функцияны таңдау жылы құжаттарды жіктеу, сияқты өзара ақпарат және квадраттық мүмкіндіктерді таңдау. Өте төмен жиіліктегі терминдер бүкіл кластерді ұсынуда ең жақсы болып табылмайды және кластерді таңбалау кезінде алынып тасталуы мүмкін. Осы сирек кездесетін терминдерді жіберіп алу және дифференциалды тестті қолдану арқылы дифференциалды кластерлік таңбалау арқылы ең жақсы нәтижеге қол жеткізуге болады.^[1]

Өзара ақпарат

Өрістерінде ықтималдықтар теориясы және ақпарат теориясы, өзара ақпарат екеуінің тәуелділік дәрежесін өлшейді кездейсоқ шамалар. Екі айнымалының өзара ақпараты $X$ және $Y$ ретінде анықталады:

${ displaystyle I (X, Y) = sum _ {x in X} { sum _ {y in Y} {p (x, y) log_ {2} left ({ frac {p (x) , y)} {p_ {1} (x) p_ {2} (y)}} right)}}}$

қайда p (x, y) болып табылады ықтималдықтың бірлескен таралуы екі айнымалының, б₁(х) - бұл Х-тің ықтималдық үлестірімі және б₂(y) - Y-тің ықтималдық үлестірімі.

Кластерді таңбалау жағдайында Х айнымалысы кластерге мүшелікке байланысты, ал Y айнымалысы терминнің болуымен байланысты.^[2] Екі айнымалының да мәні 0 немесе 1 болуы мүмкін, сондықтан теңдеуді келесі түрде қайта жазуға болады:

${ displaystyle I (C, T) = sum _ {c in {0,1}} { sum _ {t in {0,1}} {p (C = c, T = t) log_ { 2} солға ({ frac {p (C = c, T = t)} {p (C = c) p (T = t)}} оңға)}}}$

Бұл жағдайда, p (C = 1) кездейсоқ таңдалған құжаттың белгілі бір кластердің мүшесі болу ықтималдығын білдіреді және p (C = 0) болмау ықтималдығын білдіреді. Сол сияқты, p (T = 1) кездейсоқ таңдалған құжатта берілген терминнің болу ықтималдығын білдіреді және p (T = 0) мүмкін болмайтындығын білдіреді. The бірлескен ықтималдықты бөлу функциясы p (C, T) екі оқиғаның қатар жүру ықтималдығын білдіреді. Мысалға, p (0, 0) құжаттың кластерге қатыспау ықтималдығы c және мерзімді қамтымайды т; p (0, 1) құжаттың кластерге қатыспау ықтималдығы C және мерзімді қамтиды Т; және тағы басқа.

Квадраттық таңдау

Пирсонның хи-квадраттық сынағын оқиғаның басталуы алғашқы күткенге сәйкес келу ықтималдығын есептеу үшін пайдалануға болады. Атап айтқанда, оның көмегімен А және В екі оқиғаның бар-жоғын анықтауға болады статистикалық тәуелсіз. Хи-квадрат статистиканың мәні:

${ displaystyle X ^ {2} = sum _ {a in A} { sum _ {b in B} { frac {(O_ {a, b} -E_ {a, b}) ^ {2 }} {E_ {a, b}}}}}$

қайда O_{а, б} болып табылады байқалды а және b қатар жүретін жиілік, және E_{а, б} болып табылады күткен қатар жүру жиілігі.

Кластерлік таңбалау жағдайында А айнымалысы кластерге мүшелік етумен, ал В айнымалысы терминнің болуымен байланысты. Екі айнымалының да мәні 0 немесе 1 болуы мүмкін, сондықтан теңдеуді келесі түрде қайта жазуға болады:

${ displaystyle X ^ {2} = sum _ {a in {0,1}} { sum _ {b in {0,1}} { frac {(O_ {a, b} -E_ { a, b}) ^ {2}} {E_ {a, b}}}}}$

Мысалға, O_1,0 - бұл белгілі бір кластерге кіретін, бірақ белгілі бір мерзімді қамтымайтын құжаттардың байқалған саны және E_1,0 - бұл белгілі бір кластерде болатын, бірақ белгілі бір мерзімді қамтымайтын құжаттардың болжамды саны.Біздің алғашқы болжамымыз - бұл екі оқиға тәуелсіз, сондықтан бірлескен ықтимал ықтималдылықтарды жеке ықтималдықтарды көбейту арқылы есептеуге болады:^[3]

E_1,0 = N * P (C = 1) * P (T = 0)

мұндағы N - жинақтағы құжаттардың жалпы саны.

Кластерлік ішкі таңбалау

Кластерлік ішкі таңбалау тек қызығушылық кластерінің мазмұнына тәуелді белгілерді таңдайды. Кластерлік таңбалау центроидта жиі кездесетін терминдерді табу немесе центроидқа жақын құжатты табу сияқты әртүрлі әдістерді қолдана алады.

Centroid жапсырмалары

Саласындағы жиі қолданылатын модель ақпаратты іздеу - құжаттарды вектор ретінде ұсынатын кеңістіктің векторлық моделі. Вектордағы жазбалар ішіндегі шарттарға сәйкес келеді лексика. Екілік векторлардың мәні 1-ге тең, егер термин белгілі бір құжат ішінде болса, ал егер ол жоқ болса - 0 болады. Көптеген векторлар құжаттағы терминнің маңыздылығын және / немесе терминдердің маңыздылығын құжат жинағында көрсететін салмақтарды пайдаланады. Құжаттардың белгілі бір кластері үшін біз есептей аламыз центроид табу арқылы орташа арифметикалық барлық құжат векторларының. Егер центроид векторындағы жазба үлкен мәнге ие болса, онда сәйкес термин кластер ішінде жиі кездеседі. Бұл терминдер кластердің белгісі ретінде қолданыла алады. Центроидты таңбалаудың бір минусы - ол «орын» және «сөз» сияқты сөздерді жазбаша мәтінде жиілігі жоғары, бірақ мазмұнына онша қатысы жоқ сөздерді таңдай алады. нақты кластер.

Контексттендірілген центроид жапсырмалары

Жоғарыда аталған шектеулерден шығудың қарапайым, үнемді тәсілі - ең көп салмағы бар центроид терминдерін оларды түсіндіру мен таңдау үшін контекстті қамтамасыз ететін графикалық құрылымға енгізу.^[4]Бұл тәсілде терминдермен бірге жүретін матрица деп аталады ${ displaystyle T_ {k}}$ алдымен әр кластерге арналған ${ displaystyle S_ {k}}$ . Әр ұяшық терминнің рет санын көрсетеді ${ displaystyle i}$ терминмен қатар жүреді ${ displaystyle j}$ мәтіннің белгілі бір терезесінде (сөйлем, абзац және т.б.) екінші кезеңде ұқсастық матрицасы ${ displaystyle T_ {k} ^ {sim}}$ көбейту арқылы алынады ${ displaystyle T_ {k}}$ оның транспозымен. Бізде бар ${ displaystyle T_ {k} ^ {sim} = T_ {k} 'T_ {k} = (t _ {{sim} _ {ij}})}$ . Екі нормаланған вектордың нүктелік көбейтіндісі бола отырып ${ displaystyle { tilde {t}} _ {i}}$ және ${ displaystyle { tilde {t}} _ {j}}$ , ${ displaystyle t _ {{sim} _ {ij}}}$ терминдер арасындағы косинустық ұқсастықты білдіреді ${ displaystyle i}$ және ${ displaystyle j}$ . Осылайша алынған ${ displaystyle T_ {k} ^ {sim}}$ содан кейін ұқсастық графигінің өлшенген іргелес матрицасы ретінде қолданыла алады. Центроидтық терминдер осы графиктің бөлігі болып табылады, сондықтан оларды графикте қоршаған терминдерді тексеру арқылы түсіндіруге және балл қоюға болады.

Тақырып белгілері

Центроидты таңбалауға балама - тақырыптық таңбалау. Мұнда біз кластер ішіндегі ең кіші құжатты табамыз Евклидтік қашықтық центроидқа жіберіп, оның атауын кластер белгісі ретінде қолданыңыз. Құжат атауын пайдаланудың бір артықшылығы - олар терминдер тізімінде жоқ қосымша ақпарат беруінде. Алайда, оларда пайдаланушыны адастыру мүмкіндігі бар, өйткені бір құжат бүкіл кластердің өкілі бола алмауы мүмкін.

Сыртқы білім белгілері

Кластерлік таңбалауды жанама түрде сыртқы білімді қолдану арқылы жүзеге асыруға болады, мысалы, Википедия сияқты алдын-ала санатталған білім.^[5] Мұндай әдістерде алдымен кластердің құжаттарынан маңызды мәтіндік функциялар жиынтығы алынады. Содан кейін бұл мүмкіндіктер кластерлік белгілерге үміткерлерді шығарып алуға болатын (өлшенген) K-ге жақын санатталған құжаттарды алу үшін пайдаланылуы мүмкін. Соңғы кезең осындай үміткерлердің рейтингін қамтиды. Сәйкес әдістер болып саналады, бұл дауыс беру немесе термоядролық процестерге негізделген, олар санатталған құжаттар жиынтығы мен бастапқы кластерлік ерекшеліктер көмегімен анықталады.

Бірнеше кластерлік белгілерді біріктіру

Бірнеше түрлі кластерлік жапсырмалардың кластерлік жапсырмаларын одан әрі жақсырақ жапсырмалар алу үшін біріктіруге болады. Мысалға, Сызықтық регрессия таңбалаушы ұпайларының оңтайлы үйлесімін үйрену үшін қолдануға болады.^[6] Неғұрлым күрделі техника а біріктіру кластерлік жапсырмаларды талдау және әр түрлі этикеткалардың тұрақтылығын талдау.^[7]

Сыртқы сілтемелер

Әдебиеттер тізімі

^ Мэннинг, Кристофер Д., Прабхакар Рагхаван және Гинрих Шутце. Ақпаратты іздеуге кіріспе. Кембридж: Кембридж UP, 2008. Кластерді таңбалау. Стэнфорд табиғи тілді өңдеу тобы. Желі. 25 қараша 2009 ж. <http://nlp.stanford.edu/IR-book/html/htmledition/cluster-labeling-1.html >.
^ Мэннинг, Кристофер Д., Прабхакар Рагхаван және Гинрих Шутце. Ақпаратты іздеуге кіріспе. Кембридж: Кембридж UP, 2008. Өзара ақпарат. Стэнфорд табиғи тілді өңдеу тобы. Желі. 25 қараша 2009 ж. <http://nlp.stanford.edu/IR-book/html/htmledition/mutual-information-1.html >.
^ Мэннинг, Кристофер Д., Прабхакар Рагхаван және Гинрих Шутце. Ақпаратты іздеуге кіріспе. Кембридж: Кембридж UP, 2008. Chi2 функциясын таңдау. Стэнфорд табиғи тілді өңдеу тобы. Желі. 25 қараша 2009 ж. <http://nlp.stanford.edu/IR-book/html/htmledition/feature-selectionchi2-feature-selection-1.html >.
^ Франсуа Рол, Моахмед Надиф. Кластердің таңбалауынан тыс: графикалық көріністі қолдану арқылы кластерлердің мазмұнын мағыналық түсіндіру. Білімге негізделген жүйелер, 56-том, қаңтар, 2014 ж.: 141-155
^ Дэвид Кармел, Хаггай Ройтман, Наама Цвердлинг. Википедия көмегімен кластерлік таңбалауды күшейту. SIGIR 2009: 139-146
^ Дэвид Кармел, Хаггай Ройтман, Наама Цвердлинг. Википедия көмегімен кластерлік таңбалауды күшейту. SIGIR 2009: 139-146
^ Хаггай Ройтман, Шей Хуммель, Михал Шмуэли-Шёер. Кластерді таңбалауға біріктіру тәсілі. SIGIR 2014: 883-886

[1] Мэннинг, Кристофер Д., Прабхакар Рагхаван және Гинрих Шутце. Ақпаратты іздеуге кіріспе. Кембридж: Кембридж UP, 2008. Кластерді таңбалау. Стэнфорд табиғи тілді өңдеу тобы. Желі. 25 қараша 2009 ж. <http://nlp.stanford.edu/IR-book/html/htmledition/cluster-labeling-1.html >.

[2] Мэннинг, Кристофер Д., Прабхакар Рагхаван және Гинрих Шутце. Ақпаратты іздеуге кіріспе. Кембридж: Кембридж UP, 2008. Өзара ақпарат. Стэнфорд табиғи тілді өңдеу тобы. Желі. 25 қараша 2009 ж. <http://nlp.stanford.edu/IR-book/html/htmledition/mutual-information-1.html >.

[3] Мэннинг, Кристофер Д., Прабхакар Рагхаван және Гинрих Шутце. Ақпаратты іздеуге кіріспе. Кембридж: Кембридж UP, 2008. Chi2 функциясын таңдау. Стэнфорд табиғи тілді өңдеу тобы. Желі. 25 қараша 2009 ж. <http://nlp.stanford.edu/IR-book/html/htmledition/feature-selectionchi2-feature-selection-1.html >.

[4] Франсуа Рол, Моахмед Надиф. Кластердің таңбалауынан тыс: графикалық көріністі қолдану арқылы кластерлердің мазмұнын мағыналық түсіндіру. Білімге негізделген жүйелер, 56-том, қаңтар, 2014 ж.: 141-155

[5] Дэвид Кармел, Хаггай Ройтман, Наама Цвердлинг. Википедия көмегімен кластерлік таңбалауды күшейту. SIGIR 2009: 139-146

[6] Дэвид Кармел, Хаггай Ройтман, Наама Цвердлинг. Википедия көмегімен кластерлік таңбалауды күшейту. SIGIR 2009: 139-146

[7] Хаггай Ройтман, Шей Хуммель, Михал Шмуэли-Шёер. Кластерді таңбалауға біріктіру тәсілі. SIGIR 2014: 883-886

[1]

[2]

[3]

[4]

[5]

[6]

[7]