Екілік тәуелсіздік моделі - Binary Independence Model

The Екілік тәуелсіздік моделі (BIM)[1][2] ықтималдық болып табылады ақпаратты іздеу құжаттың / сұраныстың ұқсастығының ықтималдығын бағалауға болатын бірнеше қарапайым болжамдар жасайтын әдіс.

Анықтамалар

Екілік тәуелсіздік туралы болжам - бұл құжаттар екілік векторлар. Яғни құжаттарда терминдердің болуы немесе болмауы ғана жазылады. Шарттар Дербес тиісті құжаттар жиынтығында таратылады, сонымен қатар олар маңызды емес құжаттар жиынтығында дербес таратылады. Буль айнымалылар. Яғни, құжатты немесе сұранысты ұсыну - қарастырылатын әр термин үшін бір логикалық элементі бар вектор. Нақтырақ айтсақ, құжат вектормен ұсынылған г. = (х1, ..., хм) қайда хт=1 егер мерзім т құжатта бар г. және хт=0 егер ол болмаса. Көптеген құжаттар дәл осындай жеңілдетумен бірдей векторлық көрсетілімге ие бола алады. Сұраулар ұқсас түрде ұсынылған. «Тәуелсіздік» құжаттағы терминдердің бір-бірінен тәуелсіз қарастырылатынын және терминдер арасындағы байланыс модельденбейтіндігін білдіреді. Бұл болжам өте шектеулі, бірақ оның көптеген жағдайларға жеткілікті жақсы нәтиже беретіндігі дәлелденді. Бұл тәуелсіздік - а-ның «аңғалдық» жорамалы Аңғал Байес классификаторы, мұнда бір-бірін білдіретін қасиеттер қарапайымдылық үшін тәуелсіз ретінде қарастырылады. Бұл болжам көріністі а данасы ретінде қарастыруға мүмкіндік береді Векторлық кеңістік моделі әр терминді 0 немесе 1 мәні ретінде басқа терминдер үшін қолданылған өлшемдерге ортогоналды өлшем бойынша қарастыру арқылы.

Ықтималдық құжаттың маңызды екендігі осы құжаттың терминдер векторының сәйкестік ықтималдығынан туындайды . Көмегімен Бэйс басқарады Біз алып жатырмыз:

қайда және сәйкесінше тиісті немесе қатысы жоқ құжатты алу ықтималдығы. Егер солай болса, онда ол құжаттың өкілі болып табылады х.Дәл ықтималдықтар туралы алдын-ала білуге ​​болмайды, сондықтан құжаттар жинау туралы статистикалық мәліметтерден бағалау қажет.

және сәйкес немесе сәйкес емес құжатты сұрау үшін алудың алдыңғы ықтималдығын көрсетіңіз q. Егер біз, мысалы, жинақтағы тиісті құжаттардың пайыздық мөлшерін білетін болсақ, онда біз оны осы ықтималдықтарды бағалау үшін қолдана аламыз. Құжат сұрауға байланысты немесе маңызды емес болғандықтан, бізде:

Сұрау шарттарын өлшеу

Екілік сұрау және нүктелік өнім құжат пен сұраныстың ұқсастығы функциясы болғандықтан, мәселе іздеу тиімділігі жоғары болатындай етіп сұраудағы термиттерге салмақ тағайындауда. Келіңіздер және тиісті құжат пен маңызды емес құжаттың болуы ықтималдығы менмың сәйкесінше мерзім. Ю және Салтон,[1] бірінші BIM-ді кім енгізеді, салмағы менмың термин - өсіп келе жатқан функция . Осылайша, егер қарағанда жоғары , мерзімнің салмағы мен мерзімнен жоғары болады j. Ю және Салтон[1] Сұраныстың шарттарына осындай салмақ тағайындау сұрау терминдері бірдей салмақталғаннан гөрі іздеу тиімділігін жоғарылататынын көрсетті. Робертсон және Spärck Jones[2] кейінірек көрсеткендей, егер менмың мерзіміне салмағы тағайындалады , содан кейін оңтайлы іздеу тиімділігі екілік тәуелсіздік жорамалына сәйкес алынады.

Екілік тәуелсіздік моделін Ю және Салтон ұсынды.[1] Бинарлық тәуелсіздік моделі деген атауды Робертсон мен Спярк Джонс ұсынған.[2]

Сондай-ақ қараңыз

Әрі қарай оқу

  • Мэннинг Кристофер Д. Прабхакар Рагхаван; Гинрих Шутце (2008), Ақпаратты іздеуге кіріспе, Кембридж университетінің баспасы
  • Стефан Буттчер; Чарльз Л. А. Кларк; Гордон В. Кормак (2010), Ақпаратты іздеу: Іздеу жүйелерін енгізу және бағалау, MIT түймесін басыңыз

Әдебиеттер тізімі

  1. ^ а б c г. Ю, Т .; Салтон, Г. (1976). «Нақты өлшеу - индекстеудің тиімді автоматты әдісі» (PDF). ACM журналы. 23: 76. дои:10.1145/321921.321930.
  2. ^ а б c Робертсон, С.; Спарк Джонс, К. (1976). «Іздеу терминдерінің маңыздылығын өлшеу». Американдық ақпараттық ғылымдар қоғамының журналы. 27 (3): 129. дои:10.1002 / asi.4630270302.