Арабша сөйлеу корпорациясы - Arabic Speech Corpus

The Арабша сөйлеу корпорациясы Бұл Қазіргі стандартты араб (MSA) сөйлеу корпусы үшін сөйлеу синтезі. Корпуста фонема деңгейінде жазылған сөйлеуге сәйкес келетін 3,7 сағаттан астам MSA сөйлеуінің фонетикалық және орфографиялық транскрипциясы бар. Аннотацияға жеке фонемаларға сөздердің стресс белгілері кіреді.[1]

Араб сөйлеу корпусы докторлық жоба аясында салынған Навар Халаби кезінде Саутгемптон университеті қаржыландырады MicroLinkPC корпусты коммерциализациялау үшін эксклюзивті лицензиясы бар, бірақ корпус коммерциялық емес мақсаттар үшін қол жетімді. ресми Араб Сөйлеу Корпусының веб-сайты. Ол астында таратылады Creative Commons Attribution-NonCommercial-ShareAlike 4.0 халықаралық лицензиясы.[2]

Мақсаты

Корпус негізінен сөйлеу синтезі үшін салынған Сөйлеу синтезі, бірақ корпус HMM негізіндегі араб тіліндегі дауыстарды құру үшін пайдаланылды. Ол басқа сөйлеу корпустарын олардың фонетикалық транскриптімен автоматты түрде туралау үшін қолданылды және сөйлеуді тану жүйелерін оқытуға арналған үлкен корпустың бөлігі ретінде қолданыла алады.[1]

Мазмұны

Пакетте келесілер бар:

  • Ауызекі сөйлемдерден тұратын 1813 .wav файлдары.
  • 1813. Мәтіндік айтылымдардан тұратын файл файлдары.
  • 1813 .TextGrid файлдары .wav файлдарында болатын шекаралардың уақыт белгілері бар фонема белгілері бар. Бұл файлдарды Praat бағдарламалық жасақтамасының көмегімен ашуға болады.
  • әрбір жолда «[wav_filename]» «[фонемалар тізбегі]» формасы бар фонетикалық-транскрипт.txt.
  • әр жолда «[wav_filename]» «[orhographic transcript]» формасы бар orthographic-transcript.txt. Орфография Баквалтер форматында, ол араб графикасын оқымайтын бағдарламалық жасақтама бар. Оны араб тіліне оңай ауыстыруға болады.
  • Корпусты бағалау үшін қосымша 18 минуттық толық аннотацияланған корпус бар (жоғарыдан бөлек, бірақ құрылымы жоғарыдағыдай) (PhD диссертациясын қараңыз).

Корпус сонымен қатар автоматты түрде шығарылатын, орфоэпияға негізделген стресс белгілерін қолдану арқылы дәлелденді[3] MSA-да сөйлеу синтезінің сапасын жақсарту.

Сондай-ақ қараңыз

Пайдаланылған әдебиеттер

  1. ^ а б Халаби, Навар (2016). Сөйлеу синтезіне арналған заманауи стандартты араб фонетикасы (PDF) (PhD диссертация). Саутгемптон университеті, Электроника және информатика мектебі.
  2. ^ Арабша сөйлеу корпорациясы (Веб парақ), Оксфорд университеті, 2016
  3. ^ Halpern, Jack (2009). Қазіргі стандартты араб тіліндегі стресс және дауысты дыбыстарды бейтараптандыру (PDF). Араб тілінің қорлары мен құралдары бойынша 2-ші халықаралық конференция. Каир.

Сыртқы сілтемелер