Деректерді сызып тастау - Data scraping

Деректерді сызып тастау бұл а компьютерлік бағдарлама үзінділер деректер бастап адамға түсінікті басқа бағдарламадан шығатын өнім.

Сипаттама

Қалыпты, деректерді беру бағдарламалар арасында жүзеге асырылады мәліметтер құрылымы сәйкес келеді автоматтандырылған өңдеу компьютерлер, адамдар емес. Мұндай алмасу форматтар және хаттамалар әдетте қатаң құрылымдалған, жақсы құжатталған, оңай талданды және түсініксіздікті минимумға дейін сақтаңыз. Көбінесе бұл берілістер болмайды адамға түсінікті мүлде.

Осылайша, деректерді скраптауды әдеттегіден ажырататын негізгі элемент талдау қырылатын нәтиженің an-ға дейін көрсетілуіне арналғандығы Соңғы қолданушы, басқа бағдарламаға енгізу ретінде емес, сондықтан әдетте құжатталмайды және ыңғайлы талдау үшін құрылымдалмайды. Деректерді скраптау көбінесе екілік деректерді (әдетте кескіндерді немесе мультимедиялық деректерді) ескермеуді қамтиды, дисплей пішімдеу, артық белгілер, артық түсіндірмелер және маңызды емес немесе автоматтандырылған өңдеуге кедергі келтіретін басқа ақпарат.

Деректерді сызып тастау көбінесе а интерфейсі үшін жасалады мұра жүйесі токпен үйлесетін басқа механизмі жоқ жабдық немесе ыңғайлылықты қамтамасыз етпейтін үшінші тарап жүйесіне интерфейс жасау API. Екінші жағдайда, үшінші тарап жүйесінің операторы жүйенің ұлғаюы сияқты себептерге байланысты экранды қажетсіз деп санайды. жүктеме, жоғалту жарнама кіріс немесе ақпарат мазмұнын бақылауды жоғалту.

Деректерді сызып тастау әдетте осы жағдай үшін, талғампаз емес техника, көбінесе деректерді ауыстырудың басқа механизмі болмаған кезде «соңғы құрал» ретінде қолданылады. Жоғарыдан бөлек бағдарламалау және тұтынуға арналған шығыс дисплейлер құрылымды жиі өзгертеді. Адамдар мұны оңай жеңе алады, бірақ компьютерлік бағдарлама белгілі бір форматта немесе белгілі бір жерде деректерді оқып шығуды бұйырған және оның нәтижелерін жарамдылығын тексеру әдісі туралы білмегендіктен, бос әңгімелер туралы хабарлауы мүмкін.

Техникалық нұсқалары

Экранды қыру

Деректерді түсіру процесін реттеу үшін экранның фрагменті және экранды скреперлеу интерфейсі (қызыл көрсеткі бар көк қорап).

Физикалық пайдалану »дегенменмылқау терминал «IBM 3270s ақырындап азаяды, өйткені көбірек мейнфреймдік қосымшалар көбейеді желі интерфейстер, кейбір веб-қосымшалар тек «экранды қыру«ескі экрандарды түсіру және деректерді заманауи фронттарға жіберу.[1]

Экранды скраптау, әдетте, веб-скрепингтегідей деректерді талдаудың орнына, көзден алынған визуалды деректердің бағдарламалық жиынтығымен байланысты. Бастапқыда, экранды қыру мәтіндік деректерді компьютер дисплейінен оқу практикасына сілтеме жасады Терминал Келіңіздер экран. Әдетте бұл терминалды оқу арқылы жасалды жады оның көмекшісі арқылы порт немесе бір компьютерлік жүйенің терминал шығыс портын екіншісіндегі кіріс портына қосу арқылы. Экранды скрепинг термині, әдетте, мәліметтердің екі бағытты алмасуына сілтеме жасау үшін қолданылады. Бұл басқарушы бағдарлама қолданушы интерфейсі арқылы өтетін қарапайым жағдайлар немесе басқарылатын бағдарлама адам пайдалануы керек интерфейске деректерді енгізетін күрделі сценарийлер болуы мүмкін.

Классикалық экран скреперінің нақты мысалы ретінде 1960-шы жылдардан бастап компьютерлендірілген таңдағы гипотетикалық мұра жүйесін қарастырыңыз. деректерді өңдеу. Компьютерге дейін пайдаланушы интерфейстері сол дәуірден бастап көбінесе мәтінге негізделген мылқау терминалдар виртуалдыдан гөрі көп емес телепринтерлер (мұндай жүйелер бүгінде де қолданылып келеді), әр түрлі себептерге байланысты). Мұндай жүйені заманауи жүйелермен байланыстыруға деген ұмтылыс жиі кездеседі. A берік шешім жиі қол жетімді емес нәрселерді қажет етеді, мысалы бастапқы код, жүйе құжаттама, API, немесе бағдарламашылар 50 жылдық компьютерлік жүйеде тәжірибесі бар. Мұндай жағдайларда терминалда пайдаланушы ретінде «көрінетін» экран скреперін жазу жалғыз мүмкін шешім болуы мүмкін. Экран скрепері бұрынғы жүйеге қосылуы мүмкін Телнет, еліктеу ескі пайдаланушы интерфейсін шарлау, алынған дисплейдің шығуын өңдеу, қажетті деректерді шығару және оны заманауи жүйеге жіберу үшін қажетті пернелерді басу. Ірі кәсіпорында талап етілетін басқару мен бақылауды қамтамасыз ететін платформада салынған осы түрдегі күрделі әрі серпінді іске асыру - мысалы. өзгерістерді басқару, қауіпсіздік, пайдаланушыларды басқару, деректерді қорғау, жедел аудит, жүктемелерді теңгерімдеу және кезектерді басқару және т.б. - мысалы бола алады деп айтуға болады. роботтандырылған процестерді автоматтандыру RPA немесе RPAAI деп аталатын, өзін-өзі басқаратын RPA 2.0 бағдарламалық жасақтамасына негізделген жасанды интеллект.

1980 жылдары қаржылық деректерді жеткізушілер сияқты Reuters, Тездету, және Квотрон адам оқырманына арналған 24 × 80 форматтағы деректерді көрсетті. Бұл деректерді пайдаланушылар, әсіресе инвестициялық банктер, осы таңбалық деректерді сандық деректер ретінде сатып алу және айырбастауға арналған қосымшаларсыз сауда шешімдері үшін есептеулерге қосу үшін жазды қайта кілт деректер. Бұл практиканың жалпы термині, әсіресе Біріккен Корольдігі, болды бетті ұсақтау, өйткені нәтижелер a арқылы өткен деп ойлауға болатын еді қағаз ұсақтағыш. Ішкі Рейтерс осы конверсия процесінде «логикаланған» терминін қолданып, күрделі компьютерлік жүйені іске қосқан VAX / VMS Logicizer деп аталады.[2]

Экранды скраптаудың қазіргі заманғы әдістеріне экрандағы нүктелік суреттерді түсіру және оларды an арқылы іске қосу кіреді OCR қозғалтқыш немесе кейбір мамандандырылған автоматтандырылған тестілеу жүйелері үшін экранның растрлық деректерін күтілетін нәтижелермен сәйкестендіру.[3] Мұны жағдайда біріктіруге болады GUI бағдарламалық жасақтама, олардың негізіне сілтемелерді бағдарламалық түрде алу арқылы графикалық басқару элементтеріне сұраныс жасай отырып бағдарламалау объектілері. Экрандар тізбегі автоматты түрде түсіріліп, мәліметтер базасына айналады.

Осы әдістерге тағы бір заманауи бейімделу - енгізу ретіндегі экрандар тізбегінің орнына кескіндер жиынтығын немесе PDF файлдарын пайдалану, сондықтан жалпы «құжаттарды сызып тастаумен» кейбір қабаттасулар бар есеп беру техникасы.

Экранды қыру үшін қолдануға болатын көптеген құралдар бар.[4]

Веб-скрепинг

Веб-беттер мәтінге негізделген түзету тілдерінің көмегімен салынған (HTML және XHTML ) және жиі мәтін түрінде көптеген пайдалы деректерді қамтиды. Алайда веб-парақтардың көпшілігі адамға арналған соңғы пайдаланушылар және автоматтандырылған пайдаланудың қарапайымдылығы үшін емес. Осыған байланысты веб-мазмұнды қыратын құралдар жиынтығы жасалды. A веб-қырғыш болып табылады API немесе веб-сайттан деректерді шығаруға арналған құрал. Компаниялар ұнайды Amazon AWS және Google ақырғы пайдаланушыларға веб-скрепинг құралдары, қызметтері және жалпыға қол жетімді деректерді ұсыну.Веб-скрепингтің жаңа түрлері веб-серверлерден ақпараттарды тыңдауды қамтиды. Мысалға, JSON әдетте клиент пен веб-сервер арасында тасымалдауды сақтау механизмі ретінде қолданылады.

Жақында компаниялар техниканы қолдануға негізделген веб-скрепинг жүйесін жасады DOM талдау, компьютерлік көру және табиғи тілді өңдеу пайдалы ақпаратты автоматты түрде шығару үшін веб-парақты қарау кезінде пайда болатын адамның өңдеуін имитациялау.[5][6]

Ірі веб-сайттар қорғаныс алгоритмдерін өз деректерін веб-скреперлерден қорғау және IP немесе IP желісі жіберуі мүмкін сұраныстарды шектеу үшін пайдаланады. Бұл веб-сайт жасаушылар мен қырғыштарды жасаушылар арасында үздіксіз шайқас тудырды.[7]

Тау-кен өндірісі туралы есеп беру

Тау-кен өндірісі туралы есеп беру - бұл компьютер оқитын есептерден мәліметтер алу. Дәстүрлі деректерді шығару жұмыс көзі жүйесіне қосылуды қажет етеді қосылым стандарттар немесе API, және әдетте күрделі сұрау. Бастапқы жүйенің есеп берудің стандартты нұсқаларын пайдалану және шығынды а-ға бағыттау арқылы катушка файлы орнына a принтер, статикалық есептерді есептерді тау-кен арқылы желіден тыс талдау үшін қолайлы етіп жасауға болады.[8] Мұндай тәсіл қарқындыдан аулақ бола алады Орталық Есептеуіш Бөлім жұмыс уақытында пайдалану, азайтуға болады Соңғы қолданушы үшін лицензия шығындары ERP клиенттерге өте жылдам прототиптеуді және тапсырыс бойынша есептер әзірлеуді ұсына алады. Деректерді скрепинг пен веб-скрепинг динамикалық шығарылыммен өзара әрекеттесуді көздейтін болса, есептерді өндіру HTML, PDF немесе мәтін сияқты файлдарды адам оқитын форматта шығаруды көздейді. Бұларды кез-келген жүйеден деректерді принтерге жіберу арқылы оңай жасауға болады. Бұл тәсіл деректерді алудың жылдам және қарапайым маршрутын бастапқы жүйеге API бағдарламалауынсыз қамтамасыз ете алады.

Сондай-ақ қараңыз

Әдебиеттер тізімі

  1. ^ «Сонау 1990-шы жылдары .. 2002 ... 2016 ... сәйкес, әлі де Chase Bank, басты мәселе. Рон Либер (2016 жылғы 7 мамыр). «Джейми Димон сізді инновациялық стартаптардан қорғағысы келеді». The New York Times.
  2. ^ Салымшылар Reuters-тің мониторинг желісінен IDN-ге ауысу жоспары туралы қуанышты, FX аптасы, 1990 жылғы 02 қараша
  3. ^ Ие, Том (2009). «Sikuli: іздеу және автоматтандыру үшін GUI скриншоттарын пайдалану» (PDF). UIST.
  4. ^ «Экранды қыру дегеніміз не». 17 маусым, 2019.
  5. ^ «Diffbot қолданбаларға веб-парақтарды адамдар сияқты оқуды жеңілдетуге бағытталған». MIT Technology шолуы. Алынған 1 желтоқсан 2014.
  6. ^ «Бұл қарапайым деректерді сызып алу құралы қолданбалардың жасалу жолын өзгерте алады». Сымды. Архивтелген түпнұсқа 11 мамыр 2015 ж. Алынған 8 мамыр 2015.
  7. ^ ""Компьютерлік желіден әдеттен тыс трафик «- Анықтама іздеу». support.google.com. Алынған 2017-04-04.
  8. ^ Скотт Штайнахер, «Data Pump хост деректерін түрлендіреді», InfoWorld, 1999 ж. 30 тамыз, 55-бет

Әрі қарай оқу

  • Тез арада, Кевин және Калишайн, Тара. Өрмекші хакерлер. Кембридж, Массачусетс: О'Рейли, 2003 ж. ISBN  0-596-00577-6.