Сахналау (деректер) - Staging (data)

A қою алаңы, немесе қону аймағы, бұл деректерді өңдеу үшін пайдаланылатын аралық сақтау аймағы шығару, түрлендіру және жүктеу (ETL) процесс. Деректерді қою аймағы көбінесе деректер көзі (дер) імен және деректер мақсатымен (дер) арасында орналасады деректер қоймалары, деректер марты, немесе басқа мәліметтер қоймасы.[1]

Деректерді қою аймақтары көбінесе өтпелі сипатқа ие, олардың мазмұны ETL процесі басталғанға дейін немесе ETL процесі сәтті аяқталғаннан кейін дереу жойылады. Архивтеу немесе ақаулықтарды жою мақсатында деректерді ұзақ уақыт сақтауға арналған аралық архитектура бар.

Іске асыру

Сахналау аймақтары кесте түрінде реляциялық мәліметтер базасында, файлдық жүйелерде сақталған мәтіндік жалпақ файлдарда (немесе XML файлдарда) немесе файлдық жүйелерде сақталған жеке форматталған екілік файлдарда жүзеге асырылуы мүмкін.[2] Сахналау аумағының архитектурасы күрделілігі бойынша мақсатты мәліметтер қорындағы қарапайым реляциялық кестелер жиынтығынан дербес дерекқор даналарына немесе файлдық жүйелерге дейін.[3] ETL процестері қолдайтын бастапқы жүйелер мен мақсатты жүйелер реляциялық мәліметтер базасы болғанымен, деректер көздері мен мақсаттар арасында орналасатын қою аймақтары реляциялық мәліметтер базасы болмауы керек.[4]

Функциялар

Сахналау аймақтары көптеген артықшылықтар беру үшін жасалуы мүмкін, бірақ оларды пайдаланудың негізгі мотивтері ETL процестерінің тиімділігін арттыру, деректердің тұтастығын қамтамасыз ету және деректер сапасының операцияларын қолдау болып табылады. Сахналау аймағының функциялары келесілерді қамтиды:

Шоғырландыру

Кезеңдеу аумағы орындайтын негізгі функциялардың бірі - көптеген дереккөз жүйелерінен деректерді шоғырландыру.[2] Бұл функцияны орындау кезінде сахналау аймағы үлкен «шелек» рөлін атқарады, онда бірнеше бастапқы жүйелерден алынған мәліметтерді әрі қарай өңдеу үшін уақытша орналастыруға болады. Әдетте, эталондық аймақтағы деректерді шығу көзін көрсететін қосымша метадеректермен белгілеу және деректерді қою аумағына қашан орналастырғанын көрсететін уақыт белгілері бар.

Туралау

Туралау деректері стандарттауды қамтиды анықтамалық мәліметтер бірнеше дереккөз жүйелері бойынша және әр түрлі дереккөздердегі жазбалар мен деректер элементтері арасындағы қатынастарды тексеру.[2] Кезеңдеу аймағындағы деректерді туралау - бұл функциялармен тығыз байланысты және оны қолдайтын функция, деректерді басқаруды меңгеру мүмкіндіктері.[5]

Жанжалды азайту

Қойылатын аймақ және ETL процестері көбінесе бастапқы жүйелердегі қайшылықтарды азайту мақсатында жасалады. Қажетті деректерді бастапқы жүйелерден сахналау аймағына бір түсірілімде көшіру жеке жазбаларды (немесе жазбалардың кішігірім жиынтығын) бір реттік режимде алуға қарағанда тиімді. Бұрынғы әдіс деректерді беру технологиялары сияқты бастапқы тиімді жүйелерге қосылымдарды үзу және қалпына келтіру қажеттілігін минимизациялау және көп қолданушы көздеріндегі параллельді басқаруды оңтайландыру арқылы төмендетілген үстеме ақы төлеу технологиялары сияқты техникалық тиімділіктерді пайдаланады. Бастапқы деректерді бастапқы жүйелерден көшіріп, қою аймағында қарқынды өңдеу мен түрлендіруді күтіп, ETL процесі үлкен бақылауды жүзеге асырады параллельдік мәселелер өңдеу кезінде.

Тәуелсіз жоспарлау / бірнеше мақсаттар

Кезеңдеу аймағы тәуелсіз кестелер бойынша өңделетін деректерді және бірнеше мақсатқа бағытталған деректерді орналастыруды қолдай алады.[2] Кейбір жағдайларда деректерді қоюға және өңдеуге бір уақытта әр түрлі уақытта қою мүмкін. Мұндай жағдай, мысалы, кәсіпорынды өңдеу әр түнде бірнеше уақыт белдеуінде жүзеге асырылған кезде орын алуы мүмкін. Басқа жағдайларда, деректер әр түрлі уақытта өңделу үшін қою аймағына әкелінуі мүмкін; немесе аралық аймақ деректерді бірнеше мақсатты жүйелерге жіберу үшін пайдаланылуы мүмкін. Мысал ретінде күнделікті жедел деректерді жедел деректер қоймасы (ODS) ал сол мәліметтер ай сайын жинақталған түрде мәліметтер қоймасына жіберілуі мүмкін.

Анықтауды өзгерту

Кезеңдеу аймағы мақсатты жүйелерге қарсы тиімді анықтау операцияларын қолдайды. Бұл функционалдылық, әсіресе бастапқы жүйелер өзгерісті анықтаудың сенімді нысандарын қолдамаған жағдайда, мысалы, жүйемен бекітілген уақыт белгілері, бақылауды қадағалау немесе деректерді түсіруді өзгерту (CDC).

Деректерді тазарту

Деректерді тазарту жарамсыз деректерді бастапқы жүйелерден анықтау және жою (немесе жаңарту) кіреді. Кезеңдеу аймағын қолданатын ETL процесі «жарамсыз» деректерді анықтау және өңдеу үшін бизнес-логиканы жүзеге асыру үшін қолданыла алады. Жарамсыз деректер көбінесе іскери ережелер мен техникалық шектеулердің жиынтығы арқылы анықталады. Деректердің жарамдылық ережелерін орындау үшін сахналық аймақ құрылымдарына техникалық шектеулерді (реляциялық мәліметтер базасындағы кестелік шектеулер сияқты) қосымша орналастыруға болады.[2]

Жиынтық алдын-ала есептеу

Мақсатты жүйелерде жиынтық есеп беру үшін жоғары деңгейлі қызмет деңгейіндегі келісімдерді (SLA) қолдау үшін кезеңдеу аймағында агрегаттарды алдын-ала есептеу, күрделі есептеулер және күрделі бизнес логикасын қолдану мүмкін.[3]

Деректерді мұрағаттау және ақаулықтарды жою

Деректерді архивтеуді қою аймағында орындауға немесе оған қолдау көрсетуге болады. Бұл сценарийде сахналау аумағын жүктеу процесінде тарихи жазбаларды жүргізу үшін немесе деректерді мақсатты мұрағат құрылымына жіберу үшін пайдалануға болады. Сонымен қатар, ETL процесінің техникалық ақаулықтарын жоюды қолдау үшін деректер ұзақ уақыт бойы сақталуы мүмкін.[3]

Әдебиеттер тізімі

  1. ^ Oracle 9i деректерді сақтау жөніндегі нұсқаулық, Деректерді сақтау туралы түсініктер, Oracle Corp.
  2. ^ а б c г. e Деректерді сақтау негіздері: АТ мамандарына арналған толық нұсқаулық, б. 137-138, Полрайдж Поннях, 2001 ж.
  3. ^ а б c BI мамандары: үлкен деректер және сіздің деректер қоймаңыздың деректерді орналастыру аймағы, Деректерді сақтау институты, Филлип Рассом, 2012 ж.
  4. ^ Деректерді кезеңдеу өзара байланысты ма? Мұрағатталды 2013-12-26 сағ Wayback Machine, Ральф Кимбол, 1998.
  5. ^ Іс жүзінде деректерді басқарудың шебері: Нақты тұтынушыға арналған MDM-ге қол жеткізу, Далтон Серво және Марк Аллен, 2011.