SMART ақпаратты іздеу жүйесі - SMART Information Retrieval System

The SMART (мәтінді механикалық талдау және іздеу жүйесі) Ақпараттық іздеу жүйесі болып табылады ақпаратты іздеу жүйесі әзірленген Корнелл университеті 1960 жылдары. Ақпаратты іздеудегі көптеген маңызды тұжырымдамалар зерттеулері шеңберінде жасалды SMART[өлі сілтеме ] жүйесі, оның ішінде кеңістіктің векторлық моделі, өзектілігі туралы кері байланыс, және Роккионың классификациясы.

Джерард Салтон SMART-ты дамытқан топты басқарды. Басқа салымшылар кіреді Майк Леск.

SMART жүйесі сонымен қатар әртүрлі пәндерден алынған корпорациялар, сұраулар мен анықтамалық рейтингтер жиынтығын ұсынады, атап айтқанда

SMART жүйесінің мұрасына SMART үштік нотациясы деп аталатын, белгілеуге арналған мнемоникалық схема жатады tf-idf кеңістіктік векторлық модельдегі салмақтық нұсқалар. Салмақ комбинациясын бейнелейтін мнемотехника форманы алады ddd.qqqМұндағы алғашқы үш әріп жинау құжаты векторының салмақтау мерзімін, ал екінші үш әріп сұраныс құжаты векторы үшін салмақтау терминін білдіреді. Мысалға, ltc.lnn білдіреді ltc жинау құжатына қолданылатын салмақ және лнн сұраныс құжатына қолданылатын салмақ.

Келесі кестелер SMART белгісін орнатады:[1]

Таңбалар мен белгілер
құжат векторын білдіреді, мұндағы - бұл терминнің салмағы жылы және - бірегей терминдердің саны . Позитивті белгілер құжаттағы терминдерді сипаттайды, ал нөлдің салмағы құжатта жоқ терминдер үшін қолданылады.
Мерзімнің пайда болу жиілігі құжатта Құжаттағы бірегей терминдер саны
Жинақ құжаттарының саныҚұжаттағы бірегей терминдердің орташа саны
Мерзімі көрсетілген құжаттар саны қазіргіҚұжаттағы таңбалар саны
Құжаттағы ең көп кездесетін терминнің пайда болу жиілігі Құжаттағы таңбалардың орташа саны
Терминнің құжаттағы орташа пайда болу жиілігі Әлемдік жинау статистикасы
Айналдырылған құжаттың ұзындығын қалыпқа келтіру контекстіндегі көлбеу[2]
Ақылды мерзімді өлшеудің үштік жазбасы
Мерзімнің жиілігі Құжаттың жиілігі Құжаттың ұзындығын қалыпқа келтіру
бЕкілік салмақхnЖинау жиілігін ескермейдіхnҚұжат ұзақтығын қалыпқа келтіру жоқ
тnШикі мерзім жиілігіfКері жинау жиілігіcКосинаны қалыпқа келтіру
аҮлкейтілген термиялық жиіліктКері жинау жиілігісенБірегей қалыпқа келтіру[2]
лЛогарифмбЫқтималдық кері жиілікбБелгіленген ұзындықты қалыпқа келтіру[2]
LОрташа мерзімді-жиілікке негізделген қалыпқа келтіру[2]
г.Екі еселенген логарифм

Бірінші, бесінші және тоғызыншы бағандардағы сұр әріптер Сальтон мен Баклидің 1988 жылғы қағазында қолданған сызбасы болып табылады.[3] Екінші, алтыншы және оныншы бағандардағы қою әріптер - бұл кейіннен баяндалған тәжірибелерде қолданылатын схема.

Әдебиеттер тізімі

  1. ^ Палчодхури, Саупарна (2016). «Tf-idf-ті дәлелдеу туралы». sauparna.sdf.org. Алынған 2019-07-29.
  2. ^ а б c г. Singhal, A., Buckley, C., & Mitra, M. (1996). Құжаттың ұзындығын нормаландыру. SIGIR форумы, 51 жыл, 176-184.
  3. ^ Salton, G., & Buckley, C. (1988). Мәтінді автоматты түрде іздеудегі мерзімді өлшеу тәсілдері. Инф. Процесс. Басқару., 24, 513-523.

Сыртқы сілтемелер