Clasificación de textos académicos en función de su contenido léxico-semántico

El objetivo de esta investigación es clasificar, utilizando y comparando dos métodos de categorización automática, los textos académicos incluidos en el Corpus PUCV-2006 perteneciente al trabajo realizado en el proyecto Fondecyt 1060440. Estos métodos están basados en los lexemas de contenido semánt...

Descripción completa

Guardado en:

Detalles Bibliográficos
Autor principal:	Venegas,René
Lenguaje:	Spanish / Castilian
Publicado:	Pontificia Universidad Católica de Valparaíso. Instituto de Literatura y Ciencias del Lenguaje 2007
Materias:	Discurso académico modelo vectorial Bayes Ingenuo Máquina de Soporte de Vectores
Acceso en línea:	http://www.scielo.cl/scielo.php?script=sci_arttext&pid=S0718-09342007000100012
Etiquetas:	Agregar Etiqueta Sin Etiquetas, Sea el primero en etiquetar este registro!

id	oai:scielo:S0718-09342007000100012
record_format	dspace
spelling	oai:scielo:S0718-093420070001000122007-05-11Clasificación de textos académicos en función de su contenido léxico-semánticoVenegas,René Discurso académico modelo vectorial Bayes Ingenuo Máquina de Soporte de Vectores El objetivo de esta investigación es clasificar, utilizando y comparando dos métodos de categorización automática, los textos académicos incluidos en el Corpus PUCV-2006 perteneciente al trabajo realizado en el proyecto Fondecyt 1060440. Estos métodos están basados en los lexemas de contenido semántico compartidos en el corpus de textos académicos usados en cuatro carreras profesionales de la Pontificia Universidad Católica de Valparaíso, Chile. El corpus PUCV-2006 actualmente está conformado por 652 textos, los que en cantidad total de palabras alcanza a 96.288.874. Para los propósitos de esta investigación, utilizamos una muestra de 216 textos (30.886.081 palabras) divididos en cuatro áreas disciplinares: 26 usados en Ingeniería en Construcción, 31 en Química, 64 en Trabajo Social y 95 en Psicología. Los métodos de clasificación a comparar en esta investigación son Bayes Ingenuo y Máquina de Soporte de Vectores, ambos métodos permiten identificar un pequeño grupo de lexemas compartidos, que una vez pesados estadísticamente, sirven para clasificar un nuevo texto en alguna de las cuatro áreas disciplinares. Los resultados nos permiten establecer que la Máquina de Soporte de Vectores clasifica más eficientemente los textos académicos, con altos valores de precisión y exhaustividad. Con este método podemos identificar automáticamente el dominio disciplinar de un nuevo texto académico en consulta con un alto porcentaje de exactitud (93,9%). Proyectamos usar este método como parte de un análisis multidimensional más acabado del Corpus PUCV-2006info:eu-repo/semantics/openAccessPontificia Universidad Católica de Valparaíso. Instituto de Literatura y Ciencias del LenguajeRevista signos v.40 n.63 20072007-01-01text/htmlhttp://www.scielo.cl/scielo.php?script=sci_arttext&pid=S0718-09342007000100012es10.4067/S0718-09342007000100012
institution	Scielo Chile
collection	Scielo Chile
language	Spanish / Castilian
topic	Discurso académico modelo vectorial Bayes Ingenuo Máquina de Soporte de Vectores
spellingShingle	Discurso académico modelo vectorial Bayes Ingenuo Máquina de Soporte de Vectores Venegas,René Clasificación de textos académicos en función de su contenido léxico-semántico
description	El objetivo de esta investigación es clasificar, utilizando y comparando dos métodos de categorización automática, los textos académicos incluidos en el Corpus PUCV-2006 perteneciente al trabajo realizado en el proyecto Fondecyt 1060440. Estos métodos están basados en los lexemas de contenido semántico compartidos en el corpus de textos académicos usados en cuatro carreras profesionales de la Pontificia Universidad Católica de Valparaíso, Chile. El corpus PUCV-2006 actualmente está conformado por 652 textos, los que en cantidad total de palabras alcanza a 96.288.874. Para los propósitos de esta investigación, utilizamos una muestra de 216 textos (30.886.081 palabras) divididos en cuatro áreas disciplinares: 26 usados en Ingeniería en Construcción, 31 en Química, 64 en Trabajo Social y 95 en Psicología. Los métodos de clasificación a comparar en esta investigación son Bayes Ingenuo y Máquina de Soporte de Vectores, ambos métodos permiten identificar un pequeño grupo de lexemas compartidos, que una vez pesados estadísticamente, sirven para clasificar un nuevo texto en alguna de las cuatro áreas disciplinares. Los resultados nos permiten establecer que la Máquina de Soporte de Vectores clasifica más eficientemente los textos académicos, con altos valores de precisión y exhaustividad. Con este método podemos identificar automáticamente el dominio disciplinar de un nuevo texto académico en consulta con un alto porcentaje de exactitud (93,9%). Proyectamos usar este método como parte de un análisis multidimensional más acabado del Corpus PUCV-2006
author	Venegas,René
author_facet	Venegas,René
author_sort	Venegas,René
title	Clasificación de textos académicos en función de su contenido léxico-semántico
title_short	Clasificación de textos académicos en función de su contenido léxico-semántico
title_full	Clasificación de textos académicos en función de su contenido léxico-semántico
title_fullStr	Clasificación de textos académicos en función de su contenido léxico-semántico
title_full_unstemmed	Clasificación de textos académicos en función de su contenido léxico-semántico
title_sort	clasificación de textos académicos en función de su contenido léxico-semántico
publisher	Pontificia Universidad Católica de Valparaíso. Instituto de Literatura y Ciencias del Lenguaje
publishDate	2007
url	http://www.scielo.cl/scielo.php?script=sci_arttext&pid=S0718-09342007000100012
work_keys_str_mv	AT venegasrene clasificaciondetextosacademicosenfunciondesucontenidolexicosemantico
_version_	1714201816126717952

Clasificación de textos académicos en función de su contenido léxico-semántico

Ejemplares similares