Индикалық есептеу - Indic computing

Индиялық есептеу «есептеу» дегенді білдіреді Инд «яғни үнді жазулары мен тілдері. Бұл дамуды қамтиды бағдарламалық жасақтама жылы Индиялық сценарийлер / тілдер, Кіріс әдістері, Локализация компьютерлік қосымшалар, веб-дамыту, Мәліметтер базасын басқару, Емлені тексеру құралдары, Мәтінге сөйлеу және Сөйлеуге мәтін қосымшалар және Үндістан тілдеріндегі OCR.

Үнді сценарийлерінің көпшілігі кодталған Юникод компьютерлерде және интернетте жұмыс істеуге арналған. 10.0 нұсқасы бойынша, Бенгал, Деванагари, Гуджарати, Гурмухи, Каннада, Лимбу, Малаялам, Масарам Гонди,[1] Ньюари, Ол Чики, Ория, Сингала, Тамил және Телугу сценарийлер кодталады және оларға қолдау көрсетіледі. Сияқты тарихи қолданылған жазу жүйелері Арви,[2] Ахом алфавиті,[2] Грантха,[3] Худабади,[3] Махаджани,[3] Моди алфавиті,[3] Сидхэм сценарийі,[3] Силоти Нагри,[4] Тирхута[3] сонымен қатар енгізілген. Индиялық сценарийлер әзірленуде және мысалы, юникодқа енеді Tulu сценарийі.

Indic Computing көптеген жобалары жүзеге асырылуда. Оларға кейбір мемлекеттік сектор компаниялары, кейбір еріктілер топтары және жеке адамдар қатысады.

Мемлекеттік сектор

Үнді одағының үкіметі ұялы телефондар өндіретін, сақтайтын, сататын және Үндістанда таратылатын ұялы байланыс компанияларына мәтінді оқуды қолдауды міндеттеді. барлығы 22 тіл.[5] Бұл қадам миллиондаған қолданушылардың үнді тілдерін қолданудың өсуіне әкелді.[6]

TDIL

The Электроника және ақпараттық технологиялар кафедрасы, Үндістан бастамашылық етті TDIL[7] (Үнді тілдеріне арналған технологияларды жасау) тілдік тосқауылсыз адам мен машинаның өзара әрекеттесуін жеңілдету үшін ақпаратты өңдеу құралдары мен әдістерін жасау мақсатында; көптілді білім қорларын құру және қол жетімділік; және оларды инновациялық пайдаланушы өнімдері мен қызметтерін дамыту үшін біріктіру.

2005 жылы үкіметтік / академиялық / жеке компаниялар шығарған тілдік бағдарламалық жасақтаманы CD түрінде коммерциялық емес мақсатта тарата бастады.

TDIL бағдарламасының кейбір нәтижелері үнді тіліндегі технологияларды тарату және орналастыру орталығына орналастырылды. Бұл орталық TDIL қаржыландыруымен жасалған барлық лингвистикалық ресурстарды, құралдар мен қосымшаларды таратады. Бұл бағдарлама доктор Сваран Латаның басшылығымен экспоненциалды кеңеюге қол жеткізді, ол сонымен қатар бағдарламаның халықаралық стендтерін жасады.

C-DAC

C-DAC болып табылады Үндістан тілге қатысты бағдарламалық қамтамасыздандырумен айналысатын мемлекеттік бағдарламалық жасақтама компаниясы. Бұл дамумен танымал InScript пернетақтасы, үнді тілдеріне арналған стандартты пернетақта. Сонымен қатар, үндістердің көптеген шешімдері, соның ішінде мәтіндік процессорлар, мәтін теру құралдары, мәтінді сөйлеуге арналған бағдарламалық жасақтама, Үндістан тілдеріндегі OCR т.б.

BharateeyaOO.org

CDAC-дан шыққан жұмыс Бангалордан (бұрын NCST, Бангалор деп аталған) BharateeyaOO болды.[8] OpenOffice 2.1 10-нан астам үнді тіліне қолдау көрсетті.

БАСТЫҚ

BOSS Ұлттық Ресурстық Орталығымен DIT бастамасы бойынша ақысыз / ашық бастапқы бағдарламалық жасақтама үшін жасалған. Оның қызметін C-DAC Ченнай және Анна университетінің KBC зерттеу орталығы үйлестіреді. Қолданушыларға қолдау көрсету үшін Үндістанның бірнеше қаласында қолдау орталықтары құрылды.

ҮЕҰ және еріктілер топтары

Индлинукс

Индлинукс ұйым Linux-тің және оның қосымшаларының әртүрлі тілдік нұсқаларында жұмыс істейтін жеке еріктілерді ұйымдастыруға көмектесті.

Саровар

Sarovar.org Үндістан Free / Open source лицензиялары бойынша жобаларды орналастыруға арналған алғашқы порталы. Ол орналасқан Триандрум, Үндістан және Asianet деректер орталығында орналастырылды. Sarovar.org, Linuxense-пен, олардың қоғамдық қызметтерінің бөлігі ретінде, River Valley Technologies демеушілігімен орнатылған және орнатылған. Sarovar.org Debian Etch және GForge-де құрылған және METTLE-ден басталады.

Пинаак

Пинаак - бұл үнді тіліндегі есептеумен айналысатын үкіметтік емес қайырымдылық қоғамы. Бағдарламалық жасақтаманы локализациялау, тілдік бағдарламалық жасақтаманы әзірлеу, ашық бастапқы бағдарламалық жасақтаманы локализациялау, онлайн-энциклопедияларды байыту және т.с.с жұмыс істейді. Сонымен қатар, Пинаак адамдарға есептеу, интернетті этикалық пайдалану және Үнді тілдері Интернетте.

Анкур тобы

Ankur Group бенгал тілін қолдау бағытында жұмыс істейді (Бенгал ) қосулы Linux операциялық жүйе, соның ішінде локализацияланған бенгалдық GUI, Тікелей CD, Ағылшын-бенгал тіліне аудармашы, бенгал OCR және бенгал сөздігі т.б.[9]

БхашаИндия

SMC

SMC - бұл ақысыз бағдарламалық жасақтама, ол Кераладағы тілдік алшақтықты жою үшін жұмыс істейді және қазіргі кезде Үндістандағы ең ірі тілдік есептеу қауымдастығы болып табылады.[10]

Кіріс әдістері

Reverie пернетақтасы Android жүйесінде теру үшін қолдау көрсетілетін үнді тілдерін тізімдейді

Толық өлшемді пернетақталар

Келуімен Юникод Үнді мәтінін компьютерге енгізу өте оңай болды. Осы мақсатта бірқатар әдістер бар, бірақ олардың негізгілері: -

InScript

Жазба - үнді тілдеріне арналған стандартты пернетақта. Әзірлеуші C-DAC және Үндістан үкіметі стандарттаған. Қазіргі уақытта ол барлық негізгі операциялық жүйелерде, соның ішінде енгізілген Microsoft Windows (2000, XP, Vista, 7), Linux және Macintosh.

Фонетикалық транслитерация

Бұл, мысалы, пайдаланушы үнді тіліндегі мәтінді теретін теру әдісі Рим және фонетикалық түрде үнді графикасындағы эквивалентті мәтінге нақты уақыт режимінде түрлендіріледі. Түрлендірудің бұл түрі фонетикалық мәтіндік редакторлар, мәтіндік процессорлар және бағдарламалық жасақтама плагиндері арқылы жүзеге асырылады. Идеяға сүйене отырып, фонетикалық қолдануға болады IME мүмкіндік беретін құралдар Инд кез келген қосымшаға енгізілетін мәтін.

Фонетикалық транслитераторлардың кейбір мысалдары Xlit, Google үнді транслитерациясы, BarahaIME, Индиялық IME, Рупантар, SMC индиялық пернетақтасы және Microsoft үнді тілін енгізу құралы. SMC Индиялық пернетақта 23 тілді қолдайды, ал Google үнді пернетақтасы 11 үнді тілін ғана қолдайды.[10]

Оларды жалпы түрде жіктеуге болады:

  • Бекітілген транслитерация схемасына негізделген құралдар - олар мәтінді түрлендіру үшін бекітілген транслитерация схемасын қолдана отырып жұмыс істейді. Кейбір мысалдар Индиялық IME, Рупантар және BarahaIME.
  • Интеллектуалды / оқуға негізделген транслитерация құралдары - олар сөзді сөздікпен салыстырады, содан кейін аударылатын тілдегі баламалы сөздерге айналдырады. Кейбір танымал болып табылады Google үнді транслитерациясы, Xlit, Microsoft үнді тілін енгізу құралы және QuillPad.

Ремингтон (жазу машинкасы)

Бұл макет компьютерлер ойлап табылмаған немесе үнді тілдерімен орналастырылмаған кезде әзірленді, ал машинка машинкалары үнді сценарийлерінде мәтін терудің жалғыз құралы болды. Жазу машиналары механикалық болғандықтан және сценарий процессорының қозғалтқышын қоса алмайтындықтан, әр таңбаны пернетақтаға бөлек орналастыру керек болды, нәтижесінде пернетақта орналасуын үйрену өте күрделі және қиын болды.

Келуімен Юникод, артқы үйлесімділік үшін әр түрлі теру құралдарына Remington макеті қосылды, сондықтан ескі машинисттерге пернетақтаның жаңа орналасуын үйренудің қажеті жоқ. Қазіргі уақытта бұл макет бірнеше жыл қолданылғандығына байланысты көне типографтармен қолданылады. Ремингтонның макетін қосудың бір құралы Индиялық IME. Ремингтон пернетақтасының орналасуына негізделген қаріп Kruti Dev. Kruti Dev көмегімен ескі Ремингтон пернетақтасының орналасуын өте жақсы қолдайтын тағы бір онлайн-құрал - бұл Remington теру құралы.

Брайль шрифті

Үндістанның жеті тілін қолдайтын IBus Sharada Брайль шрифті әзірленді SMC.[10]

Сандық пернетақтасы бар ұялы телефондар

Nokia 1108 хинди

Ұялы / қол / ұялы телефонның негізгі модельдерінде қарапайым ескі телефон пернетақтасы сияқты 12 кілт бар. Ағылшын тіліне мәліметтер енгізуді жеңілдету үшін әр перне 3 немесе 4 ағылшын әріптерімен салыстырылады. Үнді тілдерін осы типтегі пернетақтамен енгізу үшін мұның екі әдісі бар. Біріншіден, көп түрту әдісі, ал екіншіден, Panini пернетақтасы сияқты экраннан визуалды көмек қолданылады. Негізгі пайдалану қысқаша хабар қызметі. Ағылшын / рим тілдері үшін пайдаланылатын 140 таңбаның өлшемін Юникод кезінде 70-ке жуық тілдік таңбаларды сыйғызу үшін пайдалануға болады[11] Меншікті қысу бірнеше рет хинди сияқты күрделі сценарий тілдері үшін бір хабарламаның көлемін ұлғайту үшін қолданылады. Зерттеу[12] Ұсынылған стандарттың қол жетімді әдістері мен ұсынымдарының кең жолақты сымсыз консорциумы (BWCI) шығарды.

Транслитерация / Фонетикалық әдістер

Ағылшын тілі үнді тілдерінде теру үшін қолданылады.QuillPad[13]IndiSMS[14]

Отандық әдістер

Жергілікті әдістерде тілдің әріптері экранда сол тілдің сол әріптердің ықтималдығына негізделген сандық пернелерге сәйкес көрсетіледі. Қосымша әріптерге арнайы кілт арқылы қол жеткізуге болады. Сөз ішінара терілген кезде пайдаланушы таңдау жасай алатын нұсқалар ұсынылады.[15]

Qwerty пернетақтасы бар смартфондар

Көптеген смартфондарда негізінен ағылшын тіліне қызмет ететін шамамен 35 кілт бар. Сандар мен кейбір белгілерге Alt деп аталатын арнайы кілт арқылы қол жеткізіледі. Осы типтегі телефондар үшін индикалық енгізу әдістері қолдау ретінде әлі дамымай отыр Юникод көрсету үшін кең қол жетімді емес.

Жұмсақ / виртуалды пернетақтасы бар ақылды телефондарға арналған

Смартфонды пайдалану үшін Inscript қабылдануда. Индия тілдерін көрсете алатын Android телефондары үшін Swalekh көп тілді пернетақтасы[16] Пернетақтаның қосымшасы[17][18] қол жетімді Gboard бірнеше үнді тілдеріне қолдау ұсынады.[19]

Локализация

Локализация дегеніміз бағдарламалық жасақтаманы, операциялық жүйелерді, веб-сайттарды және т.б. әр түрлі қосымшаларды үнді тіліне аудару. Бұл бағытта түрлі еріктілер топтары жұмыс істейді.

Mandrake Tamil нұсқасы

Көрнекті мысал - Mandrake linux-тың тамилдік нұсқасы. Тамил спикерлері Торонто (Канада) шығарылды Мандрейк, GNU / Linux бағдарламалық жасақтамасы, тамилдік нұсқасымен шығады.[20] Барлық мүмкіндіктерге тамил тілінде қол жеткізуге болатындығын атап өтуге болады. Осылайша, тамил тілін білетіндер үшін компьютерлерді пайдалану үшін ағылшын тілін білудің алғышарты жойылды.

IndLinux

IndLinux - аударманы мақсат еткен еріктілер тобы Linux операциялық жүйе үнді тілдеріне. Осы топтың күшімен Linux толықтай дерлік хинди және басқа үнді тілдерінде локализацияланды.

Нипун

Nipun - бұл әртүрлі қолданбаларды аударуға бағытталған онлайн аударма жүйесі Хинди. Бұл бөлігі Akshargram желісі.

Веб-сайттарды локализациялау

GoDaddy сайтты локализациялады Хинди, Марати және Тамил IVR-ге қоңырау шалу көлемінің 40% -ы үнді тілдерінде екенін атап өтті.[21]

Индиялық блог жүргізу

Индиялық блог жүргізу деп үнді тілдеріндегі блог жүргізуді айтады. Үнді тілдерінде блог жүргізуге ықпал ету үшін әр түрлі жұмыстар жасалды.

Әлеуметтік желілер

Кейбір әлеуметтік желілер үнді тілдерінде басталады.[22]

Бағдарламалау

Индиялық бағдарламалау тілдері

Фреймворктар

Геркин, танымал Доменге тән тіл Гуджарат, Хинди, Каннада, Пенджаби, Тамил, Телугу және Урду тілдерін қолдайды[23]

Кітапханалар

Үнді тілдеріндегі табиғи тілді өңдеу қарқынды дамып келеді. INLTK, StanfordNLP сияқты бірнеше кітапханалар бар.[24]

Аударма

Google хинди, бенгали, маратхи, тамил, телугу, гуджарат, панджаби, малаялам және каннада тілдеріне жақсартылған аударма мүмкіндігін ұсынады.[19] оффлайн қолдауымен.[25] Microsoft сонымен қатар осы тілдердің кейбіріне аударма ұсынады.

Бағдарламалық жасақтама

Индиялық тіл стегі

Бірлесіп ұйымдастырған симпозиумда FICCI және TDIL, Аджай Пракаш Савни мырза, Үндістан Үкіметі, Электроника және IT министрлігінің хатшысы, Үндістан тілі стегі байланыс кедергілерін жеңуге көмектеседі дейді.[26] Ол үнді тілдерінде сөйлесетін ИИ үшін қажет болатын әр түрлі бағдарламалық жасақтама технологияларын қамтуы және қосымшаларды құру үшін сәйкес кіру нүктелерінің қабаттарын ұсынуы керек.[27]

Емлені тексеру

Транслитерация құралдары

Транслитерация құралдары пайдаланушыларға мәтінді басқа сценариймен оқуға мүмкіндік береді. Қазірше, Ақшарамуха көптеген үнді сценарийлеріне мүмкіндік беретін құрал. Google сонымен қатар ұсынады Үнді транслитерациясы. Осы сценарийлердің кез-келген мәтінін кез-келген басқа сценарийге және керісінше түрлендіруге болады. Google және Microsoft латын әріптерінен үнді жазуларына көшуге мүмкіндік береді.

Мәтіннен сөйлеуге

Карнеги Меллон университеті, Hear2Read жобасымен бірлесіп, көзі нашар көретін адамдарға үндістердің мәтіндерін тыңдауға көмектесетін мәтіннен сөйлеуге (ТТС) бағдарламалық жасақтама жасады. Қазіргі уақытта, Тамил ұсынылады және хинди, бенгали, гуджарати, марати, каннада, панджаби және телугу тілдеріндегі шығарылымдар 2016 жылдың қалған кезеңінде күтілуде.[28]

Сөзден мәтінге

Халықаралық домендік атаулар

Операциялық жүйелер

Электрондық пошта

Microsoft Inc. хинди, бенгал және тамил электронды мекен-жайларын қолдайды. Ол болашақта басқа үнді тілдерін де қамтиды деп күтілуде.

Виртуалды көмекшілер

AI негізделген виртуалды көмекшілер Google Assistant әр түрлі үнді тілдеріне қолдау көрсетеді.

Пайдалану және өсу

Сәйкес GoDaddy, Хинди, Марати және Тамил тілдер Үндістанның интернет-трафигінің 61% құрады.[21] Интернеттегі мазмұнның 1% -дан азы үнді тілдерінде. Жаңадан жасалған ең жақсы қосымшалар бірнеше үнді тілдеріне қолдау көрсетеді және / немесе үнді тілінің мазмұнын насихаттайды. Үнді қолданушыларының 61% WhatsApp онымен сөйлесу үшін ең алдымен өздерінің ана тілдерін қолданыңыз.[29] Жақында жүргізілген зерттеуде интернетті қабылдау тамил, хинди, каннада, бенгали, маратхи, телугу, гуджарати және малаялам сияқты жергілікті тілдер арасында жоғары екендігі анықталды. Маратхи, бенгали, тамил және телугу елдегі жергілікті тілді қолданушылардың жалпы санының 30% құрайды деп болжайды. Қазіргі уақытта Тамилдің Интернетке ену деңгейі 42% -дан жоғары, содан кейін Хинди 39% -дан, Каннада 37% -дан тұрады.[30] Intex аймақтық тілді қолданудың 87% хинди, бенгал, тамил, гуджарати және маратхи сөйлеушілерден шыққанын хабарлады.[6] Лава ұялы телефондары Тамил және Малаялам тілдері телефондарда ең танымал, тіпті хинди тілінен де көп екендігі туралы хабарлады.[6]

Сондай-ақ қараңыз

Пайдаланылған әдебиеттер

  1. ^ Юникод 10.0
  2. ^ а б Юникод 8.0
  3. ^ а б c г. e f Юникод 7.0
  4. ^ Юникод 4.1
  5. ^ Үндістан тілін қолдана алатын тұтқаларды шығарудың соңғы мерзімі 2017 жылдың 1 қазанына дейін ұзартылды
  6. ^ а б c Орталықтың аймақтық тілдік қолдауға деген ұмтылысы - Hindu Business Line
  7. ^ «TDIL: Үнді тілдерінің технологияларын дамыту бағдарламасы, Үндістан». Архивтелген түпнұсқа 23 наурыз 2015 ж. Алынған 28 наурыз 2015.
  8. ^ «BharateeyaOOo». Алынған 28 наурыз 2015.
  9. ^ «Анкур үйінің мұрағаты». Анкур тобы, Bengalinux.org тобы. Архивтелген түпнұсқа 2005 жылғы 29 мамырда. Алынған 26 желтоқсан 2015.
  10. ^ а б c Малаяламға сандық секіріске көмектесу - Жаңа Үнді экспресі
  11. ^ «Quillpad Mobile - жиі қойылатын сұрақтар». Архивтелген түпнұсқа 2015 жылғы 2 сәуірде. Алынған 28 наурыз 2015.
  12. ^ «Үнді тіліндегі SMS туралы SIG есебі, 2010 ж. Қараша» (PDF). Архивтелген түпнұсқа (PDF) 2015 жылғы 2 сәуірде. Алынған 11 қараша 2011.
  13. ^ «Quillpad Mobile - ұялы телефонға арналған хинди SMS қосымшасы». Архивтелген түпнұсқа 2015 жылғы 2 сәуірде. Алынған 28 наурыз 2015.
  14. ^ «Eterno Infotech». Архивтелген түпнұсқа 2015 жылғы 28 наурызда. Алынған 28 наурыз 2015.
  15. ^ «Мобильді пернетақта-Мобильді пернетақта-Ұялы телефонға теру пернетақтасы-Ұялы телефонға теру пернетақтасы». Алынған 28 наурыз 2015.
  16. ^ Бұл Бенгалуру негізіндегі стартап NDTV - индициялық ақылды пернетақта жасады деп санайды
  17. ^ Хонсо. «MultiLing Keyboard - Google Play-дегі Android қосымшалары». Алынған 28 наурыз 2015.
  18. ^ Хонсо. «Plugin Hindi हिन्दी - Google Play-де Android қолданбалары». Алынған 28 наурыз 2015.
  19. ^ а б 9 үнді тіліне арналған Google Translate, тағы 11 пернетақтаға қолдау көрсетіледі - Live Mint
  20. ^ Фредерик Норонья. «Үнді тіліндегі есептеу: алда ұзақ жол - ерекшеліктері - технология». Infochange Үндістан. Алынған 28 наурыз 2015.
  21. ^ а б GoDaddy хинди, маратхи және тамил тілдерінде қызметтер ұсынады - EconomicTimes.com
  22. ^ Google мен Facebook-тің Үндістанға назары үнділік есептеулерді жеделдетуі мүмкін - Live Mint
  23. ^ Геркин тіліне сілтеме
  24. ^ ҮНДІ ТІЛДЕРІ ҮШІН NLP КІТАПХАНАЛАРЫ МЕН ДЕРЕКТЕРІ - Analytics India Mag
  25. ^ Google сізге 7 үнді тіліне аударуға мүмкіндік береді - Deccan Chronicle
  26. ^ Сохни, Шри. Аджай Пракаш (30 шілде 2018). «Байланыстың кедергілерін жеңу үшін Үндістан тілдерінің стегі қажет: IT хатшысы». Баспасөз ақпарат бюросы. Алынған 27 қыркүйек 2020.
  27. ^ Bhārat Bhāṣā стегі үшін жағдай - Voice Assistant және сөйлесетін интеллектуалды инновацияларға арналған үнділік тілді экожүйе
  28. ^ Карнеги Меллон университеті (3 тамыз 2016). «Android қолданбасы нашар көретін адамдарға Үндістанда ана тілдеріндегі мәтіндерді тыңдауға мүмкіндік береді-CMU жаңалықтары». Карнеги Меллон университеті. Алынған 23 тамыз 2016.
  29. ^ Біз әлі үнді интернетін салған жоқпыз!
  30. ^ Ағылшын тілінде ғана ағылшын тіліне тыйым салынады: Үндістанға онлайн режимінде келетін 90% жаңа интернет қолданушылары - ағылшын емес сөйлеушілер