Ақпаратты іздеу орталығы - Information Retrieval Facility

IRF логотипі

The Ақпаратты іздеу орталығы (IRF), 2006 жылы құрылған және орналасқан Вена, Австрия, саласындағы мамандар үшін желі және ынтымақтастық үшін ғылыми платформа болды ақпаратты іздеу. Ол 2012 жылы жұмысын тоқтатты.

IRF келесі санаттар бойынша мүшелер болды:

  • Зерттеушілер ақпаратты іздеу (IR) немесе байланысты ғылыми бағыттар
  • Ақпаратты басқарудың өндірістік / корпоративті мамандары
  • Патенттік органдар және мемлекеттік мекемелер
  • Жоғарыда айтылғандардың бірінің студенттері

Ғылыми кеңес

Ғылыми мақсаттар

  • Дүниежүзілік патенттік құжаттар жинағына арналған ақпараттық-іздеудің инновациялық және мамандандырылған жүйелерін модельдеу.
  • Өте ауқымды құжаттар жинақтары үшін формальды, математикалық іздеу тұжырымдамаларымен интерактивті эксперимент жүргізуге мүмкіндік беретін барабар техникалық инфрақұрылымды зерттеу және дамыту.
  • Көп модальды интерфейстердің өте ауқымды ақпараттық іздеу жүйелеріне ыңғайлылығын зерттеу.
  • Ақпараттық іздеу жүйелерін модельдеудің зерттеу процесіне нақты ақпараттық қажеттіліктермен нақты пайдаланушыларды интеграциялау тиімділікті дәл бағалауға мүмкіндік береді.
  • Ақпараттық қажеттіліктің фокусына байланысты патенттік деректердің әртүрлі көріністерін құру мүмкіндігі.
  • Патенттік құжаттар жинағында ақпаратты іздеу процесін эталондаудың стандартталған әдістерін анықтау.
  • Патенттің мәтіндік және мәтіндік емес бөліктерін үйлесімді түрде өңдеу мүмкіндігі.
  • Құрылымдық және жартылай құрылымдық құжаттарды өте ауқымды патенттік жинақтардан алуға мүмкіндік беретін іздеу жүйелерін жобалау, тәжірибе жасау және бағалау.
  • Патенттік құжаттардың уақытша өлшемдерін іздеу стратегияларына біріктіру.
  • Онтология мен табиғи тілді түсіну әдістеріне негізделген патентті алудың тиімділігі мен дәлдігін арттыру.
  • Патенттік құжаттар шеңберінде қол жетімді құрылымды пайдалану арқылы құрылымсыз сұрау салуға мүмкіндік беретін ИҚ әдістерін жетілдіру.
  • Интеллектуалдық меншік туралы ақпарат саласындағы іскери ақпараттық қажеттіліктерді ресми (математикалық) сәйкестендіру және нақтылау.
  • Патенттік деректердің сипаттамаларын ескере отырып, ақпаратты іздеудің тиімді масштабтау механизмдерін зерттеу.
  • Сыйымдылығы өте жоғары ақпаратты басқаруға арналған архитектураны зерттеу және тәжірибе жасау.
  • Ашық орнату eScience жалпыға бірдей зерттеу инфрақұрылымында ИК-эксперименттерін құрудың және орындаудың стандартталған және қарапайым тәсілін ұсынатын платформа.
  • Зияткерлік меншік туралы ақпараттан туындайтын жаңа жағдайлар мен іскери қосымшаларды табу және тергеу.
  • Ақпараттық іздеуді, табиғи тілді және семантикалық өңдеуді зерттеудің әлемдік, өндірістік контексте қолданбалы ғылымдар саласында өсуіне мүмкіндік беру.
  • Ақпаратқа қол жеткізудің әртүрлі әдістерін әзірлеу және интеграциялау.
  • Интерактивті ақпаратты іздеудің тиімді әдістері бойынша зерттеу.

Семантикалық суперкомпьютер

Конструкцияланбаған құжаттардан тұжырымдамаларды шығарудың қазіргі технологиялары өте көп есептеуді қажет етеді. Бай және орасан зор мәтіндік корпорациялармен интерактивті тәжірибе жасауға мүмкіндік беру үшін IRF жоғары технологиялық есептеу ортасын құрды, оған соңғы технологиялық жетістіктер енгізілді:

  • көп түйінді кластерлер (қазіргі уақытта 80 ядролар, 1024 дейін)
  • ең жоғары жылдамдықты қосу технологиясы
  • үлкен жадымен бір жүйелік кескін (қазіргі уақытта 320 ГБ, 4 ТБ дейін)
  • толығымен біріктірілген конфигурацияланған есептеу (қазіргі уақытта 4) FPGA 256 дейін)

Осы HPC мүмкіндіктерінің үйлесімі жеделдету үшін мәтіндік тау-кен семантикалық суперкомпьютердің IRF іске асырылуын білдіреді.

Дүниежүзілік патенттік корпус

IRF патенттік ақпарат мамандары қауымдастығына заманауи ақпаратты іздеу технологиясын ұсынуға бағытталған. Ақпаратты іздеу (IR) технологиясы жақын арада ақпараттық технологияның фокусына айналады деп күтеміз. Өнеркәсіптің барлық салалары қазіргі заманғы және болашақ мәтіндік процестерді патенттік зерттеудің ерекше талаптарына сәйкес қолданудан пайда таба алады. Барлық идеялар мен тұжырымдамалар интеллектуалды меншік туралы барлық ақпаратқа қолданылатын болса да, патенттер өте талғампаздықты талап етеді және бізді күрделі техникалық және ұйымдастырушылық мәселелермен бетпе-бет қалдырады. Патентпен байланысты құжаттардың негізгі құрамы күрделі құжаттардың ең үлкен корпусын құрауы мүмкін, бұл оны мәтін өндіруші ғалымдар мен соңғы пайдаланушылар үшін пайдалы мақсатқа айналдырады. Сонымен қатар, патенттер, әсіресе, ірі әлемдік корпорациялар мен университеттер үшін шешуші мәселеге айналды. Патенттік деректерді өнеркәсіптік пайдаланушылар ең талапшыл және маңызды ақпараттық мамандар қатарына жатады. Нәтижесінде, олар патенттік ақпараттың көп бөлігін зерттеу жүктемесін жеңілдететін технологиядан көп пайда көре алады.

Зерттеу жинақтары

IRF IRF әзірлеген, оның мүшелерінің бірі немесе үшінші тұлғалар жасаған бірнеше тестілік мәліметтер жинағын ұсынады. Бұл мәліметтер жинағын ғылыми эксперименттер үшін еркін пайдалануға болады.

MAtrixware REsearch топтамасы (МАРЕЦ ) зерттеу мақсатында алғашқы стандартталған патенттік мәліметтер корпусы болып табылады. Ол XML форматында қалыпқа келтірілген әр түрлі тілдегі 19 миллион патенттік құжаттан тұрады. Жинақ Matrixware арқылы IRF үшін жасалған.

ClueWeb09[дәйексөз қажет ] коллекция - 2009 жылдың қаңтары мен ақпанында 1 миллиард веб-парақтан тұратын 25 терабайт жиынтығы. Оны Тілдер технологиялары институты құрды. Карнеги Меллон университеті ақпаратты іздеу және онымен байланысты адамның тілдік технологиялары бойынша зерттеулерді қолдау.

Әдебиеттер тізімі

Сыртқы сілтемелер