Интернеттегі мазмұнды талдау - Online content analysis - Wikipedia

Интернеттегі мазмұнды талдау немесе желідегі мәтіндік талдау жүйелік кодтау және интерпретациялау арқылы интернеттегі материалды сипаттау және қорытынды жасау үшін қолданылатын зерттеу әдістерінің жиынтығын білдіреді. Онлайн-мазмұнды талдау - бұл формасы мазмұнды талдау Интернетке негізделген байланысты талдау үшін.

Тарих және анықтама

Қарым-қатынасты жүйелі тексеру және түсіндіру ретінде контент-талдау кем дегенде 17 ғасырдан басталады. Алайда, бұл тек көтерілгенге дейін болған жоқ газет 20 ғасырдың басында баспа материалын жаппай шығару баспа сөздерін сандық талдауға сұраныс тудырды.[1]

Берелсонның (1952) анықтамасы «қарым-қатынастың айқын мазмұнын объективті, жүйелік және сандық сипаттаудың зерттеу әдістемесі» ретінде мәтіндік талдаудың негізін қалады.[2] Контент-анализ талдаушыға мәтіндерді интерпретациялауға және қорытынды жасауға мүмкіндік беретін мәліметтер жиынтығын құру үшін мәтін бірліктерін (мысалы, сөйлемдер, квази-сөйлемдер, абзацтар, құжаттар, веб-парақтар және т.б.) олардың сипаттамалары бойынша санаттардан тұрады. Мазмұнды талдау жиі кездеседі сандық, зерттеушілер техниканы өзінің табиғаты ретінде тұжырымдайды аралас әдістер өйткені мәтіндік кодтау жоғары дәрежені қажет етеді сапалы түсіндіру.[3] Әлеуметтанушылар осы әдісті зерттеу сұрақтарын зерттеу үшін қолданды бұқаралық ақпарат құралдары,[1] медиа әсерлері[4] және күн тәртібін белгілеу.[5]

Интернеттегі қарым-қатынастың жоғарылауымен мазмұнды талдау әдістері бейімделді және қолданылды интернет-зерттеу. Газеттердің көбеюі сияқты, Интернеттегі мазмұнның таралуы контент-талдауға қызығушылық танытқан зерттеушілерге кеңейтілген мүмкіндік береді. Интернеттегі дереккөздерді пайдалану жаңа зерттеу проблемалары мен мүмкіндіктерін ұсынғанымен, McMillan (2000) тұжырымдалған онлайн-мазмұнды талдаудың негізгі процедурасы дербес дереккөздерді қолдану арқылы контент-анализден іс жүзінде айырмашылығы жоқ:

  1. Теориялық жетістіктерге әкелуі мүмкін сыналатын гипотезаларды анықтауға назар аудара отырып, зерттеу сұрағын құрастырыңыз.
  2. A анықтаңыз іріктеу рамасы іріктеме алынып, талданатын мазмұнның үлгісін (көбіне «корпус» деп атайды) салады.
  3. 1-қадамда анықталған сұраққа жауап беру үшін мазмұнды санаттарға бөлу үшін қолданылатын кодтау схемасын әзірлеңіз және енгізіңіз. Бұл уақыт кезеңін, мазмұн енгізілетін контексттік бірлікті және мазмұнды санаттайтын кодтау бірлігін көрсетуді қажет етеді.
  4. Кодтау схемасын дәйекті түрде жүзеге асыруға және тексеруге үйретіңіз сенімділік кодерлер арасында. Бұл қамтамасыз етудегі негізгі қадам қайталанғыштық талдау.
  5. Мәліметтерді талдау және интерпретациялау. 1-қадамда ұсынылған гипотезаларды тексеріп, мәліметтер жиынтығында көрсетілген мазмұн туралы қорытынды жасаңыз.

Интернет зерттеулеріндегі мазмұнды талдау

Интернеттегі байланыс күшейген кезден бастап, ғалымдар мәтіндік талдау әдістерін веб-мазмұнды зерттеу үшін қалай бейімдеу керектігін талқылады. Интернеттегі дереккөздердің табиғаты контент-анализдің көптеген кезеңдерінде оффлайн көздермен салыстырғанда ерекше күтімді қажет етеді.

Басып шығарылған мәтін сияқты желіден тыс мазмұн өндірілгеннен кейін тұрақты болып қала берсе де, желідегі мазмұн жиі өзгеруі мүмкін. Интернеттегі материалдың динамикалық табиғаты үлкен және ұлғайып келе жатқан интернеттегі мазмұнмен кездейсоқ іріктеме алуға болатын іріктеме шеңберін құруды қиындата алады. Сайттың мазмұны пайдаланушылар арасында әр түрлі болуы мүмкін, бұл іріктеу шеңберінің мұқият сипаттамасын талап етеді. Кейбір зерттеушілер іріктеу рамаларын құру үшін іздеу жүйелерін қолданды. Бұл әдістің кемшіліктері бар, өйткені іздеу жүйесінің нәтижелері жүйесіз және кездейсоқ емес, оларды әділетті таңдау үшін сенімсіз етеді. Іріктеу шеңберін шығаруға бүкіл Twitter-ді пайдаланушылардың твиттері сияқты қызығушылық танытатын бүкіл халықтың көмегімен айналып өтуге болады[6] немесе іріктеме шеңбері ретінде белгілі бір газеттердің онлайн-архивтелген мазмұны.[7] Интернеттегі материалға енгізілген өзгертулер мазмұнды санаттауды (3-қадам) күрделендіруі мүмкін. Интернеттегі мазмұн жиі өзгеруі мүмкін болғандықтан, үлгіні жинайтын уақытты атап өту өте маңызды. Пайдалы қадам - ​​өзгертулердің алдын алу үшін үлгінің мазмұнын мұрағаттау.

Интернеттегі мазмұн да сызықтық емес. Басып шығарылған мәтінде контексттік бірліктерді анықтауға болатын шекаралар нақты белгіленген (мысалы, газет мақаласы). Үлгіде қолданылатын желідегі мазмұнның шектері оңай анықталмайды. Интернеттегі алғашқы мазмұнды талдаушылар «Веб-сайтты» контексттік бірлік ретінде жиі көрсететін, олардың мағынасы нақты анықтамасыз.[2] Зерттеушілер ‘веб-парақтың’ неден тұратындығын анық және дәйекті түрде анықтауға кеңес береді, немесе контексттік бірліктің өлшемін веб-сайттағы функцияға дейін азайтады.[2][3] Зерттеушілер сонымен қатар желідегі байланыстың дискретті бірліктерін, мысалы, веб-түсініктемелерді қолданды[8] немесе твиттер.[6]

Кинг (2008) бірқатар іздеу жүйелерінің тақырыбын талдау үшін мыңдаған алдын-ала жіктелген құжаттардан дайындалған терминдер онтологиясын қолданды.[9]

Автоматты мазмұнды талдау

Интернеттегі мазмұнның жоғарылауы зерттеулерде қолдануға болатын сандық мәтіндердің көлемін күрт арттырды. Қол жетімді мәтіннің саны әдеттегі әдістемелік тәжірибедегідей қолмен кодталатын мәтіндік мәліметтер жиынтығының мағынасын түсіну үшін әдістемелік жаңалықтарға түрткі болды.[3][7] Әдістемедегі жетістіктер есептеу қабілетінің артуымен және шығындарының азаюымен бірге зерттеушілерге бұрын мәтіндік мазмұнның үлкен жиынтығын талдау үшін қол жетімсіз болған тәсілдерді қолдануға мүмкіндік берді.

Автоматты мазмұнды талдау McMillan-дің онлайн-мазмұнды талдау процедурасынан сәл алыстауды білдіреді, өйткені адамның кодтаушылары есептеу әдісімен толықтырылады және осы әдістердің кейбіреулері жетілдірілген санаттарды анықтауды қажет етпейді. Мәтіндік талдаудың сандық модельдері көбінесе сөз орамдарын алып тастайтын, өте кең таралған және өте сирек кездесетін сөздерді өшіретін және сөздерді жеңілдететін «сөздер пакетін» қолданады. лемматизация немесе түзуші бұл күрделі сөздерді олардың негізгі сөзіне айналдыру арқылы мәтіннің көлемділігін төмендетеді.[10] Бұл әдістер мәтінді түсіндіруде түбегейлі редукционизм болғанымен, егер олар дұрыс қолданылып, расталса, өте пайдалы болуы мүмкін.

Гриммер мен Стюарт (2013 ж.) Автоматты мәтіндік талдаудың екі негізгі категориясын анықтайды: жетекшілік етеді және бақылаусыз әдістер.Жетекшілік ететін әдістер кодтау схемасын құруды және зерттеуші талдағысы келетін құжаттардың кіші үлгісін қолмен кодтауды көздейді. Ең дұрысы, «жаттығулар жиынтығы» деп аталатын кіші іріктеме тұтастай іріктемені ұсынады. Одан кейін кодталған жаттығулар жиынтығы алгоритмді құжаттардағы сөздердің әр кодтау санатына сәйкес келуін «үйрету» үшін қолданылады. Алгоритмді корпустағы қалған құжаттарды автоматты түрде талдау үшін қолдануға болады.[10]

  • Сөздік әдістері: зерттеуші кілт сөздердің жиынтығын алдын-ала таңдайды (n-грамм ) әр санат үшін. Содан кейін машина осы кілт сөздерді әр мәтін бірлігін санатқа жіктеу үшін қолданады.
  • Жеке әдістер: зерттеуші мәтіндер үлгісін алдын-ала жапсырады және а машиналық оқыту алгоритм (яғни SVM алгоритмі ) осы белгілерді пайдалану. Машина жаттығулар жиынтығынан экстраполяциялау арқылы бақылаудың қалған бөлігін белгілейді.
  • Ансамбль әдістері: зерттеуші тек бір машинада оқыту алгоритмін пайдаланудың орнына олардың жиынтығын үйретеді және қалған бақылауларды белгілеу үшін алынған бірнеше белгілерді пайдаланады (толығырақ Collingwood және Wiklerson 2011 қараңыз).[11]
  • Басқарылатын идеологиялық масштабтау (яғни сөз белгілері) әр түрлі мәтін бірліктерін идеологиялық континуум бойына орналастыру үшін қолданылады. Зерттеуші әр идеологиялық экстремалды білдіретін екі мәтіндер жиынтығын таңдайды, оларды алгоритм әр экстремалды нүктеге жататын сөздерді анықтай алады. Корпустағы мәтіндердің қалған бөлігі олардың құрамында әр экстремалды сілтеменің қанша сөзі бар екеніне байланысты масштабталады.[12]

Бақыланбайтын әдістер кодтауға арналған санаттар жиынтығын анализге дейін жақсы анықтау мүмкін болмаған кезде қолдануға болады. Бақыланатын әдістерден айырмашылығы, адам кодерлері алгоритмді оқытуға міндетті емес. Зерттеушілердің бақыланбайтын әдістерді қолданудағы басты таңдауының бірі - санаттарды алдын-ала анықтамай, құжаттарды сұрыптау үшін санаттар санын таңдау.

  • Бірыңғай мүшелік модельдер: бұл модельдер мәтіндерді автоматты түрде бір-бірін жоққа шығаратын әртүрлі санаттарға топтастырады және құжаттар бір және тек бір санатқа кодталады. Гриммер мен Стюарт (16) атап көрсеткендей, «әр алгоритмде үш компонент бар: (1) құжаттың ұқсастығы немесе арақашықтықының анықтамасы; (2) жұмыс істейтін және идеалды кластерлеудің мақсаты және (3) оңтайландыру алгоритмі.»[10]
  • Аралас мүшелік модельдері: Гриммер мен Стюарттың (17) пікірінше, аралас мүшелік модельдері «қосымша және проблемалық құрылымды қосу арқылы бір мүшелік модельдерінің шығуын жақсартады».[10] Аралас мүшелік модельдері әр құжаттағы жеке сөздерді санаттарға жіктейді, бұл құжатқа бір уақытта бірнеше санаттың бөлігі бола алады. Тақырыптық модельдер саяси актерлердің фокусындағы өзгерістерді талдау үшін қолдануға болатын аралас FAC мүшелігінің бір мысалы[6] немесе газет мақалалары.[7] Тақырыпты модельдеудің ең көп қолданылатын әдісі LDA.
  • Бақыланбайтын идеологиялық масштабтау (яғни сөз балықтары): мәтіндік бірліктерді жалпы грамматикалық мазмұнға байланысты идеологиялық континуумға бөлетін алгоритмдер. Сөздер тәрізді бақыланатын масштабтау әдістерінен айырмашылығы, мысалы, wordfish[13] зерттеушінің экстремалды идеологиялық мәтіндердің үлгілерін ұсынуын талап етпейді.

Тексеру

Бақыланатын әдістердің нәтижелері «валидация жиынтығы» деп аталатын корпустың нақты кіші үлгісін салу арқылы тексерілуі мүмкін. Тексеру жиынтығындағы құжаттарды қолмен кодтауға және автоматты кодтау нәтижесімен салыстыруға болады, алгоритм адамның кодтауын қаншалықты жақсы қайталағанын бағалау үшін. Бұл салыстыру дәстүрлі мәтіндік талдауда адам кодерлерінің дәйектілігін растау үшін пайдаланылатын сияқты код аралық сенімділік ұпайлары түрінде болуы мүмкін.

Бақыланбаған әдістерді растау бірнеше тәсілмен жүзеге асырылуы мүмкін.

  • Семантикалық (немесе ішкі ) жарамдылық әрбір анықталған кластердегі құжаттардың нақты, категориялық бірлікті қаншалықты дұрыс көрсететіндігін білдіреді. Тақырып моделінде бұл әр кластердегі құжаттардың бір тақырыпты көрсететін дәрежесі болар еді. Мұны адам кодерлері тақырып таңдауын немесе кластер ішіндегі құжаттардың әр түрлі кластерлердегі құжаттармен байланыстылығын қолмен тексеру үшін қолданатын тексеру жиынтығын құру арқылы тексеруге болады.
  • Болжалды (немесе сыртқы ) валидтілік - бұл әр кластер жиілігінің ауысуын сыртқы оқиғалармен түсіндіруге болатын дәреже. Егер тақырыптар кластері жарамды болса, онда ең көрнекті тақырыптар сыртқы оқиғалар нәтижесінде уақыт бойынша болжамды түрде жауап беруі керек.

Интернеттегі мәтіндік талдаудағы қиындықтар

Әлеуметтік ғылымдардағы мәтіндік анализдің үздіксіз эволюциясына қарамастан, шешілмеген әдістемелік мәселелер әлі де бар. Бұл кейбір ерекше мәселелермен байланысты (эксклюзивті емес) тізім:

  • Зерттеушілер олардың категорияларын қашан анықтауы керек? Бұрынғы, алға-артқа, немесе осы жағдай үшін ? Кейбір әлеуметтік ғалымдар зерттеушілер деректерді жинауға және зерттеуге кіріспес бұрын олардың теориясын, үміттері мен әдістерін (бұл жағдайда олар әр түрлі мәтін бірліктерін жіктеу үшін қолданатын болады) құруы керек дейді.[14] ал кейбіреулері санаттар жиынтығын анықтау кері және кері процесс екенін қолдайды.[15][16]
  • Тексеру. Көптеген зерттеушілер өздерінің әдістері бойынша валидацияны өлшеу туралы есеп бергенімен (яғни, код аралық сенімділік, дәлдік және еске түсіру бағалары, шатасулар матрицалары және т.б.), ал басқалары жоқ. Атап айтқанда, академиктердің көп бөлігі кейбір тақырыптық модельдеу әдістерінің қалайша расталмайтындығына алаңдайды.[17]
  • Кездейсоқ үлгілер. Бір жағынан, Интернетте белгілі бір уақытта мәтіндердің қанша түрін (мысалы, блогпосттар) білу өте қиын. Сонымен, ғаламның көп бөлігі белгісіз болғандықтан, зерттеуші кездейсоқ таңдаманы қалай таңдай алады? Егер кейбір жағдайларда кездейсоқ іріктеме алу мүмкін болмаса, зерттеушілер үлгілермен жұмыс жасауы керек пе немесе өздері бақылаған барлық мәтін бірліктерін жинауға тырысу керек пе? Екінші жағынан, кейде зерттеушілерге кейбір іздеу жүйелері (мысалы, Google) және интернет-компаниялар (яғни Twitter) беретін үлгілермен жұмыс істеуге тура келеді, бірақ зерттеуде бұл үлгілердің қалай пайда болғандығы және олардың бар-жоғы туралы ақпарат жоқ кездейсоқ немесе жоқ. Зерттеулерде осындай үлгілерді қолдану керек пе?

Сондай-ақ қараңыз

Әдебиеттер тізімі

  1. ^ а б Криппендорф, Клаус (2012). Мазмұнды талдау: оның әдіснамасына кіріспе. Мың Оукс, Калифорния: Сейдж.
  2. ^ а б c Макмиллан, Салли Дж. (Наурыз 2000). «Микроскоп және қозғалмалы мақсат: бүкіләлемдік желіге контент-анализді қолдану мәселесі». Журналистика және бұқаралық коммуникация тоқсан сайын. 77 (1): 80–98. дои:10.1177/107769900007700107.
  3. ^ а б c ван Селм, Мартин; Янковски, Ник (2005). Интернетке негізделген құжаттардың мазмұнын талдау. Жарияланбаған қолжазба.
  4. ^ Риффе, Даниэль; Лэйси, Стивен; Фико, Фредерик (1998). Медиа хабарламаларды талдау: Зерттеу барысында сандық мазмұнды талдауды қолдану. Махвах, Нью-Джерси, Лондон: Лоуренс Эрлбаум.
  5. ^ Баумгартнер, Франк; Джонс, Брайан (1993). Американдық саясаттағы күн тәртібі және тұрақсыздық. Чикаго. Чикао Университеті. ISBN  9780226039534.
  6. ^ а б c Барбера, Пабло; Бонно, Ричард; Эган, Патрик; Джост, Джон; Наглер, Джонатан; Такер, Джошуа (2014). «Көшбасшылар ма немесе ізбасарлар ма? Әлеуметтік медиа деректерін пайдалану арқылы АҚШ Конгресінде саяси жауаптылықты өлшеу». Жеткізуге Американдық Саяси Ғылымдар Ассоциациясының Жыл сайынғы Жиналысында дайындалған.
  7. ^ а б c ДиМаджио, Пол; Наг, Маниш; Блей, Дэвид (желтоқсан 2013). «Тақырыпты модельдеу мен мәдениеттің әлеуметтанулық перспективалары арасындағы жақындықты пайдалану: АҚШ үкіметінің өнерді қаржыландыруы туралы газетке жүгіну». Поэтика. 41 (6): 570–606. дои:10.1016 / j.poetic.2013.08.004.
  8. ^ Мишне, Гилад; Glance, Natalie (2006). «Жауап қалдырыңыз: Веблогтың пікірлерін талдау». Веблогтар экожүйесі бойынша жыл сайынғы үшінші конференция.
  9. ^ Король, Джон Д. (2008). Іздеу жүйесінің мазмұнын талдау (PhD). Квинсленд Технология Университеті.
  10. ^ а б c г. Гриммер, Джастин; Стюарт, Брэндон (2013). «Мәтін дерек ретінде: саяси мәтіндерге арналған автоматты мазмұнды талдау әдістерінің уәдесі мен қиындықтары». Саяси талдау. 21 (3): 1–31.
  11. ^ Коллингвуд, Лорен және Джон Уилкерсон. (2011). Бақыланатын оқыту әдістеріндегі дәлдік пен тиімділіктің өзгеруі, Ақпараттық технологиялар және саясат журналы, 4-құжат.
  12. ^ Гербер, Элизабет; Льюис, Джефф (2004). «Медианадан тыс: сайлаушылардың қалауы, округтің біртектілігі және саяси өкілдік» (PDF). Саяси экономика журналы. 112 (6): 1364–83. CiteSeerX  10.1.1.320.8707. дои:10.1086/424737.
  13. ^ Слапин, Джонатан және Свен-Оливер Прокш. 2008. Мәтіндер бойынша партиялық позицияларды бағалаудың масштабты моделі. Американдық Саясаттану журналы 52 (3): 705–22.
  14. ^ Кинг, Гари, Роберт О. Кеохан және Сидни Верба. (1994). Әлеуметтік сұранысты жобалау: сапалы зерттеулердегі ғылыми қорытынды. Принстон: Prince University Press.
  15. ^ Майшабақ, Сюзан С. (2009). «Веб-мазмұнды талдау: парадигманы кеңейту». Хунсингерде Джереми (ред.) Интернетті зерттеудің халықаралық анықтамалығы. Springer Нидерланды. 233–249 беттер. CiteSeerX  10.1.1.476.6090. дои:10.1007/978-1-4020-9789-8_14. ISBN  978-1-4020-9788-1.
  16. ^ Салдана Джонни. (2009). Сапалы зерттеулерге арналған кодтау жөніндегі нұсқаулық. Лондон: SAGE Publication Ltd.
  17. ^ Чуанг, Джейсон, Джон Д. Уилкерсон, Ребекка Вайсс, Дастин Тингли, Брэндон М. Стюарт, Маргарет Э. Робертс, Фору Пурсабзи-Сандде, Джастин Гриммер, Лия Финлятер, Джордан Бойд-Грабер және Джеффри Хир. (2014). Компьютер көмегімен мазмұнды талдау: бірнеше субъективті интерпретацияларды зерттеуге арналған тақырыптық модельдер. Нейрондық ақпаратты өңдеу жүйелері (NIPS) конференциясында ұсынылған жұмыс. HumanPropelled Machine Learning бойынша семинар. Монреаль, Канада.