Терминдік кемсіту - Term Discrimination

Терминдік кемсіту - бұл кілт сөздерді қаншалықты пайдалы екендігіне қарай бағалау тәсілі ақпаратты іздеу.

Шолу

Бұл ұқсас әдіс tf-idf бірақ ол үшін қолайлы кілт сөздерді табумен айналысады ақпаратты іздеу және жоқ. Өтінемін Векторлық кеңістік моделі бірінші.

Бұл әдіс -те тұжырымдамасы қолданылады Кеңістіктің векторлық тығыздығы тығыздығы аз матрица ақпарат іздеу сұранысы соғұрлым жақсы болады.

Индекстің оңтайлы мерзімі дегеніміз - екі түрлі құжатты бір-бірінен ажырата алатын және екі ұқсас құжатты байланыстыратын термин. Екінші жағынан, суб-оңтайлы индекс термині екі түрлі құжатты екі ұқсас құжаттан айыра алмайды.

Дискриминация мәні - бұл матрицаның векторлық-кеңістік тығыздығының матрицаның векторлық кеңістігімен индекс мүшесінің тығыздығысыз айырмашылығы.

Келіңіздер: матрица болу индекс мерзімінсіз пайда болу матрицасы болыңыз және  тығыздығы .Сосын: индекс мерзімінің дискриминация мәні  бұл: 

Қалай есептеу керек

Берілген пайда болу матрицасы: және бір кілт сөз:

  • Жаһандық құжатты табыңыз центроид: (бұл жай құжат векторы)
  • Орташа мәнді табыңыз эвклидтік қашықтық әр құжат векторынан, дейін
  • Әр құжат векторынан орташа евклидтік арақашықтықты табыңыз, дейін МАҢЫЗДЫЛЫҚ
  • Жоғарыдағы қадамдағы екі мәннің айырмашылығы мынада дискриминация мәні кілт сөзі үшін

Жоғары мән жақсырақ, өйткені кілт сөзді қосқанда жақсы ақпарат ізделеді.

Сапалық бақылау

Деген кілт сөздер сирек кедей дискриминаторлар болуы керек, өйткені оларда кедейлер бар еске түсіру,деген сөздер жиі кедей дискриминаторлар болуы керек, өйткені оларда кедейлер бар дәлдік.

Әдебиеттер тізімі

  • Г. Салтон, A. Wong және C. S. Yang (1975) «Автоматты индекстеу үшін векторлық кеңістік моделі," ACM байланысы, т. 18, нр. 11, 613–620 беттер. (Векторлық кеңістіктің моделі алғаш ұсынылған мақала)
  • Can, F., Ozkarahan, E. A (1987), «Терминнің / құжаттың дискриминация мәндерін есептеу коэффициенті тұжырымдамасын қолдану арқылы есептеу». Американдық ақпараттық ғылымдар қоғамының журналы, т. 38, нр. 3, 171-183 беттер.