Aihemallinnuksen ja klusterianalyysin yhdistäminen aineiston esikäsittelyn ja mallinnuksen valintojen tutkimiseksi

Uusien tekstiaineistojen analyysimenetelmien käytön yhteiskuntatieteelliset käytännöt eivät ole vielä vakiintuneet. Yksi suosittu keskustelu- ja tekstiaineistojen mallinnustapa on aihemallinnus, jolla etsitään aineiston temaattista rakennetta sanojen yhteisesiintymisen avulla. Aihemallinnuksen tulo...

Description complète

Enregistré dans:
Détails bibliographiques
Auteur principal: Arho Toikka
Format: article
Langue:EN
FI
SV
Publié: Informaatiotutkimuksen yhdistys ITY ry 2021
Sujets:
Z
Accès en ligne:https://doaj.org/article/a92d8cf183a645c996b37c538e3258cc
Tags: Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
Description
Résumé:Uusien tekstiaineistojen analyysimenetelmien käytön yhteiskuntatieteelliset käytännöt eivät ole vielä vakiintuneet. Yksi suosittu keskustelu- ja tekstiaineistojen mallinnustapa on aihemallinnus, jolla etsitään aineiston temaattista rakennetta sanojen yhteisesiintymisen avulla. Aihemallinnuksen tulokset vaihtelevat aineiston esikäsittelyn ja mallinnuksen parametrien myötä, ja työkalusta riippuen myös satunnaisesti. Tämä on yleensä tulkittu ongelmaksi, josta päästään eroon huolellisesti validoimalla ja valitsemalla yksi ”paras malli”. Sosiaalitieteilijän näkökulmasta mallinnuksen vaihtelut voivat kuitenkin olla myös erilaisia näkökulmia aineistoon tai vivahde-eroja, joita tulkitsemalla voidaan löytää aineiston ydin. Tässä artikkelissa käsitellään tutkimusprosessia, joka perustuu toistettuihin aihemallinnuksiin aineiston esivalmisteluja ja mallinnuksen parametreja vaihtelemalla. Kahden aiheen samankaltaisuus voidaan mitata ja lukuisista malleista tuotetut aiheet voidaan ryhmitellä klusterianalyysilla näiden samankaltaisuuksien avulla. Kun kaksi aihetta sijoittuu samaan ryhmään, voidaan niiden tulkita olennaisesti kuvaavan samaa aihetta, vaikka sanajakauma ei olekaan täysin sama. Nämä aiheiden ryhmät voidaan sitten nostaa analyysin keskiöön: jotkin aiheet löytyvät riippumatta alkuvalmisteluista, jotkin vain toisinaan ja jotkut aiheet löytyvät vain sattumalta ja jäävät yksin. Yhden mallin tulkinnan rinnalla ja sijasta voidaan tulkita näitä ryhmiä, ja samalla tehdä näkyväksi mallin reliabiliteettia ja tehtyjen valintojen vaikutusta tuloksiin.