Aihemallinnuksen ja klusterianalyysin yhdistäminen aineiston esikäsittelyn ja mallinnuksen valintojen tutkimiseksi

Uusien tekstiaineistojen analyysimenetelmien käytön yhteiskuntatieteelliset käytännöt eivät ole vielä vakiintuneet. Yksi suosittu keskustelu- ja tekstiaineistojen mallinnustapa on aihemallinnus, jolla etsitään aineiston temaattista rakennetta sanojen yhteisesiintymisen avulla. Aihemallinnuksen tulo...

Descripción completa

Guardado en:
Detalles Bibliográficos
Autor principal: Arho Toikka
Formato: article
Lenguaje:EN
FI
SV
Publicado: Informaatiotutkimuksen yhdistys ITY ry 2021
Materias:
Z
Acceso en línea:https://doaj.org/article/a92d8cf183a645c996b37c538e3258cc
Etiquetas: Agregar Etiqueta
Sin Etiquetas, Sea el primero en etiquetar este registro!
id oai:doaj.org-article:a92d8cf183a645c996b37c538e3258cc
record_format dspace
spelling oai:doaj.org-article:a92d8cf183a645c996b37c538e3258cc2021-11-06T16:06:25ZAihemallinnuksen ja klusterianalyysin yhdistäminen aineiston esikäsittelyn ja mallinnuksen valintojen tutkimiseksi10.23978/inf.1078791797-91371797-9129https://doaj.org/article/a92d8cf183a645c996b37c538e3258cc2021-11-01T00:00:00Zhttps://journal.fi/inf/article/view/107879https://doaj.org/toc/1797-9137https://doaj.org/toc/1797-9129 Uusien tekstiaineistojen analyysimenetelmien käytön yhteiskuntatieteelliset käytännöt eivät ole vielä vakiintuneet. Yksi suosittu keskustelu- ja tekstiaineistojen mallinnustapa on aihemallinnus, jolla etsitään aineiston temaattista rakennetta sanojen yhteisesiintymisen avulla. Aihemallinnuksen tulokset vaihtelevat aineiston esikäsittelyn ja mallinnuksen parametrien myötä, ja työkalusta riippuen myös satunnaisesti. Tämä on yleensä tulkittu ongelmaksi, josta päästään eroon huolellisesti validoimalla ja valitsemalla yksi ”paras malli”. Sosiaalitieteilijän näkökulmasta mallinnuksen vaihtelut voivat kuitenkin olla myös erilaisia näkökulmia aineistoon tai vivahde-eroja, joita tulkitsemalla voidaan löytää aineiston ydin. Tässä artikkelissa käsitellään tutkimusprosessia, joka perustuu toistettuihin aihemallinnuksiin aineiston esivalmisteluja ja mallinnuksen parametreja vaihtelemalla. Kahden aiheen samankaltaisuus voidaan mitata ja lukuisista malleista tuotetut aiheet voidaan ryhmitellä klusterianalyysilla näiden samankaltaisuuksien avulla. Kun kaksi aihetta sijoittuu samaan ryhmään, voidaan niiden tulkita olennaisesti kuvaavan samaa aihetta, vaikka sanajakauma ei olekaan täysin sama. Nämä aiheiden ryhmät voidaan sitten nostaa analyysin keskiöön: jotkin aiheet löytyvät riippumatta alkuvalmisteluista, jotkin vain toisinaan ja jotkut aiheet löytyvät vain sattumalta ja jäävät yksin. Yhden mallin tulkinnan rinnalla ja sijasta voidaan tulkita näitä ryhmiä, ja samalla tehdä näkyväksi mallin reliabiliteettia ja tehtyjen valintojen vaikutusta tuloksiin. Arho ToikkaInformaatiotutkimuksen yhdistys ITY ryarticlebig data [http://www.yso.fi/onto/yso/p27202]tutkimusmenetelmät [http://www.yso.fi/onto/yso/p415]triangulaatio (tutkimusmenetelmät) [http://www.yso.fi/onto/yso/p23071]keskustelupalstat [http://www.yso.fi/onto/yso/p21840]Bibliography. Library science. Information resourcesZENFISVInformaatiotutkimus, Vol 40, Iss 3 (2021)
institution DOAJ
collection DOAJ
language EN
FI
SV
topic big data [http://www.yso.fi/onto/yso/p27202]
tutkimusmenetelmät [http://www.yso.fi/onto/yso/p415]
triangulaatio (tutkimusmenetelmät) [http://www.yso.fi/onto/yso/p23071]
keskustelupalstat [http://www.yso.fi/onto/yso/p21840]
Bibliography. Library science. Information resources
Z
spellingShingle big data [http://www.yso.fi/onto/yso/p27202]
tutkimusmenetelmät [http://www.yso.fi/onto/yso/p415]
triangulaatio (tutkimusmenetelmät) [http://www.yso.fi/onto/yso/p23071]
keskustelupalstat [http://www.yso.fi/onto/yso/p21840]
Bibliography. Library science. Information resources
Z
Arho Toikka
Aihemallinnuksen ja klusterianalyysin yhdistäminen aineiston esikäsittelyn ja mallinnuksen valintojen tutkimiseksi
description Uusien tekstiaineistojen analyysimenetelmien käytön yhteiskuntatieteelliset käytännöt eivät ole vielä vakiintuneet. Yksi suosittu keskustelu- ja tekstiaineistojen mallinnustapa on aihemallinnus, jolla etsitään aineiston temaattista rakennetta sanojen yhteisesiintymisen avulla. Aihemallinnuksen tulokset vaihtelevat aineiston esikäsittelyn ja mallinnuksen parametrien myötä, ja työkalusta riippuen myös satunnaisesti. Tämä on yleensä tulkittu ongelmaksi, josta päästään eroon huolellisesti validoimalla ja valitsemalla yksi ”paras malli”. Sosiaalitieteilijän näkökulmasta mallinnuksen vaihtelut voivat kuitenkin olla myös erilaisia näkökulmia aineistoon tai vivahde-eroja, joita tulkitsemalla voidaan löytää aineiston ydin. Tässä artikkelissa käsitellään tutkimusprosessia, joka perustuu toistettuihin aihemallinnuksiin aineiston esivalmisteluja ja mallinnuksen parametreja vaihtelemalla. Kahden aiheen samankaltaisuus voidaan mitata ja lukuisista malleista tuotetut aiheet voidaan ryhmitellä klusterianalyysilla näiden samankaltaisuuksien avulla. Kun kaksi aihetta sijoittuu samaan ryhmään, voidaan niiden tulkita olennaisesti kuvaavan samaa aihetta, vaikka sanajakauma ei olekaan täysin sama. Nämä aiheiden ryhmät voidaan sitten nostaa analyysin keskiöön: jotkin aiheet löytyvät riippumatta alkuvalmisteluista, jotkin vain toisinaan ja jotkut aiheet löytyvät vain sattumalta ja jäävät yksin. Yhden mallin tulkinnan rinnalla ja sijasta voidaan tulkita näitä ryhmiä, ja samalla tehdä näkyväksi mallin reliabiliteettia ja tehtyjen valintojen vaikutusta tuloksiin.
format article
author Arho Toikka
author_facet Arho Toikka
author_sort Arho Toikka
title Aihemallinnuksen ja klusterianalyysin yhdistäminen aineiston esikäsittelyn ja mallinnuksen valintojen tutkimiseksi
title_short Aihemallinnuksen ja klusterianalyysin yhdistäminen aineiston esikäsittelyn ja mallinnuksen valintojen tutkimiseksi
title_full Aihemallinnuksen ja klusterianalyysin yhdistäminen aineiston esikäsittelyn ja mallinnuksen valintojen tutkimiseksi
title_fullStr Aihemallinnuksen ja klusterianalyysin yhdistäminen aineiston esikäsittelyn ja mallinnuksen valintojen tutkimiseksi
title_full_unstemmed Aihemallinnuksen ja klusterianalyysin yhdistäminen aineiston esikäsittelyn ja mallinnuksen valintojen tutkimiseksi
title_sort aihemallinnuksen ja klusterianalyysin yhdistäminen aineiston esikäsittelyn ja mallinnuksen valintojen tutkimiseksi
publisher Informaatiotutkimuksen yhdistys ITY ry
publishDate 2021
url https://doaj.org/article/a92d8cf183a645c996b37c538e3258cc
work_keys_str_mv AT arhotoikka aihemallinnuksenjaklusterianalyysinyhdistaminenaineistonesikasittelynjamallinnuksenvalintojentutkimiseksi
_version_ 1718443688714043392