Aihemallinnuksen ja klusterianalyysin yhdistäminen aineiston esikäsittelyn ja mallinnuksen valintojen tutkimiseksi
Uusien tekstiaineistojen analyysimenetelmien käytön yhteiskuntatieteelliset käytännöt eivät ole vielä vakiintuneet. Yksi suosittu keskustelu- ja tekstiaineistojen mallinnustapa on aihemallinnus, jolla etsitään aineiston temaattista rakennetta sanojen yhteisesiintymisen avulla. Aihemallinnuksen tulo...
Guardado en:
Autor principal: | |
---|---|
Formato: | article |
Lenguaje: | EN FI SV |
Publicado: |
Informaatiotutkimuksen yhdistys ITY ry
2021
|
Materias: | |
Acceso en línea: | https://doaj.org/article/a92d8cf183a645c996b37c538e3258cc |
Etiquetas: |
Agregar Etiqueta
Sin Etiquetas, Sea el primero en etiquetar este registro!
|
id |
oai:doaj.org-article:a92d8cf183a645c996b37c538e3258cc |
---|---|
record_format |
dspace |
spelling |
oai:doaj.org-article:a92d8cf183a645c996b37c538e3258cc2021-11-06T16:06:25ZAihemallinnuksen ja klusterianalyysin yhdistäminen aineiston esikäsittelyn ja mallinnuksen valintojen tutkimiseksi10.23978/inf.1078791797-91371797-9129https://doaj.org/article/a92d8cf183a645c996b37c538e3258cc2021-11-01T00:00:00Zhttps://journal.fi/inf/article/view/107879https://doaj.org/toc/1797-9137https://doaj.org/toc/1797-9129 Uusien tekstiaineistojen analyysimenetelmien käytön yhteiskuntatieteelliset käytännöt eivät ole vielä vakiintuneet. Yksi suosittu keskustelu- ja tekstiaineistojen mallinnustapa on aihemallinnus, jolla etsitään aineiston temaattista rakennetta sanojen yhteisesiintymisen avulla. Aihemallinnuksen tulokset vaihtelevat aineiston esikäsittelyn ja mallinnuksen parametrien myötä, ja työkalusta riippuen myös satunnaisesti. Tämä on yleensä tulkittu ongelmaksi, josta päästään eroon huolellisesti validoimalla ja valitsemalla yksi ”paras malli”. Sosiaalitieteilijän näkökulmasta mallinnuksen vaihtelut voivat kuitenkin olla myös erilaisia näkökulmia aineistoon tai vivahde-eroja, joita tulkitsemalla voidaan löytää aineiston ydin. Tässä artikkelissa käsitellään tutkimusprosessia, joka perustuu toistettuihin aihemallinnuksiin aineiston esivalmisteluja ja mallinnuksen parametreja vaihtelemalla. Kahden aiheen samankaltaisuus voidaan mitata ja lukuisista malleista tuotetut aiheet voidaan ryhmitellä klusterianalyysilla näiden samankaltaisuuksien avulla. Kun kaksi aihetta sijoittuu samaan ryhmään, voidaan niiden tulkita olennaisesti kuvaavan samaa aihetta, vaikka sanajakauma ei olekaan täysin sama. Nämä aiheiden ryhmät voidaan sitten nostaa analyysin keskiöön: jotkin aiheet löytyvät riippumatta alkuvalmisteluista, jotkin vain toisinaan ja jotkut aiheet löytyvät vain sattumalta ja jäävät yksin. Yhden mallin tulkinnan rinnalla ja sijasta voidaan tulkita näitä ryhmiä, ja samalla tehdä näkyväksi mallin reliabiliteettia ja tehtyjen valintojen vaikutusta tuloksiin. Arho ToikkaInformaatiotutkimuksen yhdistys ITY ryarticlebig data [http://www.yso.fi/onto/yso/p27202]tutkimusmenetelmät [http://www.yso.fi/onto/yso/p415]triangulaatio (tutkimusmenetelmät) [http://www.yso.fi/onto/yso/p23071]keskustelupalstat [http://www.yso.fi/onto/yso/p21840]Bibliography. Library science. Information resourcesZENFISVInformaatiotutkimus, Vol 40, Iss 3 (2021) |
institution |
DOAJ |
collection |
DOAJ |
language |
EN FI SV |
topic |
big data [http://www.yso.fi/onto/yso/p27202] tutkimusmenetelmät [http://www.yso.fi/onto/yso/p415] triangulaatio (tutkimusmenetelmät) [http://www.yso.fi/onto/yso/p23071] keskustelupalstat [http://www.yso.fi/onto/yso/p21840] Bibliography. Library science. Information resources Z |
spellingShingle |
big data [http://www.yso.fi/onto/yso/p27202] tutkimusmenetelmät [http://www.yso.fi/onto/yso/p415] triangulaatio (tutkimusmenetelmät) [http://www.yso.fi/onto/yso/p23071] keskustelupalstat [http://www.yso.fi/onto/yso/p21840] Bibliography. Library science. Information resources Z Arho Toikka Aihemallinnuksen ja klusterianalyysin yhdistäminen aineiston esikäsittelyn ja mallinnuksen valintojen tutkimiseksi |
description |
Uusien tekstiaineistojen analyysimenetelmien käytön yhteiskuntatieteelliset käytännöt eivät ole vielä vakiintuneet. Yksi suosittu keskustelu- ja tekstiaineistojen mallinnustapa on aihemallinnus, jolla etsitään aineiston temaattista rakennetta sanojen yhteisesiintymisen avulla.
Aihemallinnuksen tulokset vaihtelevat aineiston esikäsittelyn ja mallinnuksen parametrien myötä, ja työkalusta riippuen myös satunnaisesti. Tämä on yleensä tulkittu ongelmaksi, josta päästään eroon huolellisesti validoimalla ja valitsemalla yksi ”paras malli”. Sosiaalitieteilijän näkökulmasta mallinnuksen vaihtelut voivat kuitenkin olla myös erilaisia näkökulmia aineistoon tai vivahde-eroja, joita tulkitsemalla voidaan löytää aineiston ydin.
Tässä artikkelissa käsitellään tutkimusprosessia, joka perustuu toistettuihin aihemallinnuksiin aineiston esivalmisteluja ja mallinnuksen parametreja vaihtelemalla. Kahden aiheen samankaltaisuus voidaan mitata ja lukuisista malleista tuotetut aiheet voidaan ryhmitellä klusterianalyysilla näiden samankaltaisuuksien avulla. Kun kaksi aihetta sijoittuu samaan ryhmään, voidaan niiden tulkita olennaisesti kuvaavan samaa aihetta, vaikka sanajakauma ei olekaan täysin sama. Nämä aiheiden ryhmät voidaan sitten nostaa analyysin keskiöön: jotkin aiheet löytyvät riippumatta alkuvalmisteluista, jotkin vain toisinaan ja jotkut aiheet löytyvät vain sattumalta ja jäävät yksin. Yhden mallin tulkinnan rinnalla ja sijasta voidaan tulkita näitä ryhmiä, ja samalla tehdä näkyväksi mallin reliabiliteettia ja tehtyjen valintojen vaikutusta tuloksiin.
|
format |
article |
author |
Arho Toikka |
author_facet |
Arho Toikka |
author_sort |
Arho Toikka |
title |
Aihemallinnuksen ja klusterianalyysin yhdistäminen aineiston esikäsittelyn ja mallinnuksen valintojen tutkimiseksi |
title_short |
Aihemallinnuksen ja klusterianalyysin yhdistäminen aineiston esikäsittelyn ja mallinnuksen valintojen tutkimiseksi |
title_full |
Aihemallinnuksen ja klusterianalyysin yhdistäminen aineiston esikäsittelyn ja mallinnuksen valintojen tutkimiseksi |
title_fullStr |
Aihemallinnuksen ja klusterianalyysin yhdistäminen aineiston esikäsittelyn ja mallinnuksen valintojen tutkimiseksi |
title_full_unstemmed |
Aihemallinnuksen ja klusterianalyysin yhdistäminen aineiston esikäsittelyn ja mallinnuksen valintojen tutkimiseksi |
title_sort |
aihemallinnuksen ja klusterianalyysin yhdistäminen aineiston esikäsittelyn ja mallinnuksen valintojen tutkimiseksi |
publisher |
Informaatiotutkimuksen yhdistys ITY ry |
publishDate |
2021 |
url |
https://doaj.org/article/a92d8cf183a645c996b37c538e3258cc |
work_keys_str_mv |
AT arhotoikka aihemallinnuksenjaklusterianalyysinyhdistaminenaineistonesikasittelynjamallinnuksenvalintojentutkimiseksi |
_version_ |
1718443688714043392 |