Clasificación de textos académicos en función de su contenido léxico-semántico

El objetivo de esta investigación es clasificar, utilizando y comparando dos métodos de categorización automática, los textos académicos incluidos en el Corpus PUCV-2006 perteneciente al trabajo realizado en el proyecto Fondecyt 1060440. Estos métodos están basados en los lexemas de contenido semánt...

Descripción completa

Guardado en:
Detalles Bibliográficos
Autor principal: Venegas,René
Lenguaje:Spanish / Castilian
Publicado: Pontificia Universidad Católica de Valparaíso. Instituto de Literatura y Ciencias del Lenguaje 2007
Materias:
Acceso en línea:http://www.scielo.cl/scielo.php?script=sci_arttext&pid=S0718-09342007000100012
Etiquetas: Agregar Etiqueta
Sin Etiquetas, Sea el primero en etiquetar este registro!
id oai:scielo:S0718-09342007000100012
record_format dspace
spelling oai:scielo:S0718-093420070001000122007-05-11Clasificación de textos académicos en función de su contenido léxico-semánticoVenegas,René Discurso académico modelo vectorial Bayes Ingenuo Máquina de Soporte de Vectores El objetivo de esta investigación es clasificar, utilizando y comparando dos métodos de categorización automática, los textos académicos incluidos en el Corpus PUCV-2006 perteneciente al trabajo realizado en el proyecto Fondecyt 1060440. Estos métodos están basados en los lexemas de contenido semántico compartidos en el corpus de textos académicos usados en cuatro carreras profesionales de la Pontificia Universidad Católica de Valparaíso, Chile. El corpus PUCV-2006 actualmente está conformado por 652 textos, los que en cantidad total de palabras alcanza a 96.288.874. Para los propósitos de esta investigación, utilizamos una muestra de 216 textos (30.886.081 palabras) divididos en cuatro áreas disciplinares: 26 usados en Ingeniería en Construcción, 31 en Química, 64 en Trabajo Social y 95 en Psicología. Los métodos de clasificación a comparar en esta investigación son Bayes Ingenuo y Máquina de Soporte de Vectores, ambos métodos permiten identificar un pequeño grupo de lexemas compartidos, que una vez pesados estadísticamente, sirven para clasificar un nuevo texto en alguna de las cuatro áreas disciplinares. Los resultados nos permiten establecer que la Máquina de Soporte de Vectores clasifica más eficientemente los textos académicos, con altos valores de precisión y exhaustividad. Con este método podemos identificar automáticamente el dominio disciplinar de un nuevo texto académico en consulta con un alto porcentaje de exactitud (93,9%). Proyectamos usar este método como parte de un análisis multidimensional más acabado del Corpus PUCV-2006info:eu-repo/semantics/openAccessPontificia Universidad Católica de Valparaíso. Instituto de Literatura y Ciencias del LenguajeRevista signos v.40 n.63 20072007-01-01text/htmlhttp://www.scielo.cl/scielo.php?script=sci_arttext&pid=S0718-09342007000100012es10.4067/S0718-09342007000100012
institution Scielo Chile
collection Scielo Chile
language Spanish / Castilian
topic Discurso académico
modelo vectorial
Bayes Ingenuo
Máquina de Soporte de Vectores
spellingShingle Discurso académico
modelo vectorial
Bayes Ingenuo
Máquina de Soporte de Vectores
Venegas,René
Clasificación de textos académicos en función de su contenido léxico-semántico
description El objetivo de esta investigación es clasificar, utilizando y comparando dos métodos de categorización automática, los textos académicos incluidos en el Corpus PUCV-2006 perteneciente al trabajo realizado en el proyecto Fondecyt 1060440. Estos métodos están basados en los lexemas de contenido semántico compartidos en el corpus de textos académicos usados en cuatro carreras profesionales de la Pontificia Universidad Católica de Valparaíso, Chile. El corpus PUCV-2006 actualmente está conformado por 652 textos, los que en cantidad total de palabras alcanza a 96.288.874. Para los propósitos de esta investigación, utilizamos una muestra de 216 textos (30.886.081 palabras) divididos en cuatro áreas disciplinares: 26 usados en Ingeniería en Construcción, 31 en Química, 64 en Trabajo Social y 95 en Psicología. Los métodos de clasificación a comparar en esta investigación son Bayes Ingenuo y Máquina de Soporte de Vectores, ambos métodos permiten identificar un pequeño grupo de lexemas compartidos, que una vez pesados estadísticamente, sirven para clasificar un nuevo texto en alguna de las cuatro áreas disciplinares. Los resultados nos permiten establecer que la Máquina de Soporte de Vectores clasifica más eficientemente los textos académicos, con altos valores de precisión y exhaustividad. Con este método podemos identificar automáticamente el dominio disciplinar de un nuevo texto académico en consulta con un alto porcentaje de exactitud (93,9%). Proyectamos usar este método como parte de un análisis multidimensional más acabado del Corpus PUCV-2006
author Venegas,René
author_facet Venegas,René
author_sort Venegas,René
title Clasificación de textos académicos en función de su contenido léxico-semántico
title_short Clasificación de textos académicos en función de su contenido léxico-semántico
title_full Clasificación de textos académicos en función de su contenido léxico-semántico
title_fullStr Clasificación de textos académicos en función de su contenido léxico-semántico
title_full_unstemmed Clasificación de textos académicos en función de su contenido léxico-semántico
title_sort clasificación de textos académicos en función de su contenido léxico-semántico
publisher Pontificia Universidad Católica de Valparaíso. Instituto de Literatura y Ciencias del Lenguaje
publishDate 2007
url http://www.scielo.cl/scielo.php?script=sci_arttext&pid=S0718-09342007000100012
work_keys_str_mv AT venegasrene clasificaciondetextosacademicosenfunciondesucontenidolexicosemantico
_version_ 1714201816126717952