Lemmatisation of old english strong verbs on a lexical database
La nueva base de datos del Proyecto Nerthus, llamada The Grid, fue presentada por Martín Arista en una conferencia dictada en la Universidad de Sheffield en 2013. The Grid consiste en cinco tablas relacionadas: la base de datos léxica Nerthus, una concordancia por fragmentos, una concordancia por pa...
Guardado en:
Autor principal: | |
---|---|
Otros Autores: | |
Formato: | text (thesis) |
Lenguaje: | eng |
Publicado: |
Universidad de La Rioja (España)
2015
|
Acceso en línea: | https://dialnet.unirioja.es/servlet/oaites?codigo=46005 |
Etiquetas: |
Agregar Etiqueta
Sin Etiquetas, Sea el primero en etiquetar este registro!
|
id |
oai-TES0000009198 |
---|---|
record_format |
dspace |
institution |
DialNet |
collection |
DialNet |
language |
eng |
description |
La nueva base de datos del Proyecto Nerthus, llamada The Grid, fue presentada por Martín Arista en una conferencia dictada en la Universidad de Sheffield en 2013. The Grid consiste en cinco tablas relacionadas: la base de datos léxica Nerthus, una concordancia por fragmentos, una concordancia por palabras, un índice y un índice inverso de The Dictionary of Old English Corpus. The Grid no está basado en formas de diccionario, sino en atestiguaciones textuales.
De todas las líneas de investigación posibles que esta nueva organización de la base de datos ofrece, este trabajo se hace cargo de la lematización de las formas textuales. La razón es que un corpus morfológicamente anotado de inglés antiguo es una asignatura pendiente de esta disciplina. La información morfológica sólo está disponible para las letras A-G, las cuales ya han sido publicadas por el The Dictionary of Old English, pero no existe, o no es tan fácil de encontrar en los diccionarios actuales para las letras H-Y.
El propósito de la investigación es proporcionar un inventario de lemas de verbos fuertes basados en la evidencia textual que viene proporcionada por el Dictionary of Old English Corpus. Respecto al Proyecto Nerthus, esta tesis intenta desarrollar un sistema de búsquedas basado en sucesivas búsquedas, de manera que las formas más transparentes sean etiquetadas antes que otras formas más opacas.
La restricción del ámbito de análisis a los verbos fuertes se basa en dos razones. La primera es que el sistema de verbos fuertes en ingles antiguo desempeña un papel central en la derivación y el desarrollo del léxico. Por otra parte, los verbos fuertes, caracterizados por la apofonía, o ablaut, pueden ser buscados no solo por la terminación flexiva, pero también por la vocal radical, lo que contribuye a refinar el sistema de búsquedas.
El punto de partida de esta investigación es que la labor de lematización se puede hacer en parte automáticamente y en parte manualmente. La información contenida en la base de datos, junto con las funcionalidades de Filemaker, pueden maximizar la parte automática del análisis y minimizar la revisión manual.
La metodología incluye tres pasos principales: la recopilación de un corpus de verbos fuertes que se adapte al análisis, la identificación de las formas flexivas, y la definición de códigos de búsqueda automática. La lista de verbos fuertes se ha tomado de la lista de referencia de verbos fuertes del Proyecto Nerthus, que se basa en las siete clases de Campbell (1987) y Hogg and Fulk (2011), y en las subclases de Krygier (1994). Para la identificación de las formas flexivas relevantes, los verbos fuertes que no han sido derivados, han sido derivados en el infinitivo, presente de indicativo, pretérito de indicativo, presente de subjuntivo, pretérito de subjuntivo, e imperativo, todos ellos en singular y plural. Para las búsquedas en la base de datos léxica, esta tesis propone un sistema de cuatro códigos de búsqueda sucesivos que están diseñados específicamente para buscar determinadas formas verbales.
Aparte del inventario de verbos fuertes, en las conclusiones se presentan resultados en dos áreas. Primero, esta tesis puede responder de manera motivada la cuestión de los límites en la automatización en el análisis morfológico. En segundo lugar, que tesis arroja luz sobre la cuestión de la regularización de la ortografía característica del trabajo lexicográfico o normalización. |
author2 |
Martín Arista, Francisco Javier (Universidad de La Rioja) |
author_facet |
Martín Arista, Francisco Javier (Universidad de La Rioja) Metola Rodríguez, Darío |
format |
text (thesis) |
author |
Metola Rodríguez, Darío |
spellingShingle |
Metola Rodríguez, Darío Lemmatisation of old english strong verbs on a lexical database |
author_sort |
Metola Rodríguez, Darío |
title |
Lemmatisation of old english strong verbs on a lexical database |
title_short |
Lemmatisation of old english strong verbs on a lexical database |
title_full |
Lemmatisation of old english strong verbs on a lexical database |
title_fullStr |
Lemmatisation of old english strong verbs on a lexical database |
title_full_unstemmed |
Lemmatisation of old english strong verbs on a lexical database |
title_sort |
lemmatisation of old english strong verbs on a lexical database |
publisher |
Universidad de La Rioja (España) |
publishDate |
2015 |
url |
https://dialnet.unirioja.es/servlet/oaites?codigo=46005 |
work_keys_str_mv |
AT metolarodriguezdario lemmatisationofoldenglishstrongverbsonalexicaldatabase |
_version_ |
1718346638783676416 |
spelling |
oai-TES00000091982019-07-14Lemmatisation of old english strong verbs on a lexical databaseMetola Rodríguez, DaríoLa nueva base de datos del Proyecto Nerthus, llamada The Grid, fue presentada por Martín Arista en una conferencia dictada en la Universidad de Sheffield en 2013. The Grid consiste en cinco tablas relacionadas: la base de datos léxica Nerthus, una concordancia por fragmentos, una concordancia por palabras, un índice y un índice inverso de The Dictionary of Old English Corpus. The Grid no está basado en formas de diccionario, sino en atestiguaciones textuales. De todas las líneas de investigación posibles que esta nueva organización de la base de datos ofrece, este trabajo se hace cargo de la lematización de las formas textuales. La razón es que un corpus morfológicamente anotado de inglés antiguo es una asignatura pendiente de esta disciplina. La información morfológica sólo está disponible para las letras A-G, las cuales ya han sido publicadas por el The Dictionary of Old English, pero no existe, o no es tan fácil de encontrar en los diccionarios actuales para las letras H-Y. El propósito de la investigación es proporcionar un inventario de lemas de verbos fuertes basados en la evidencia textual que viene proporcionada por el Dictionary of Old English Corpus. Respecto al Proyecto Nerthus, esta tesis intenta desarrollar un sistema de búsquedas basado en sucesivas búsquedas, de manera que las formas más transparentes sean etiquetadas antes que otras formas más opacas. La restricción del ámbito de análisis a los verbos fuertes se basa en dos razones. La primera es que el sistema de verbos fuertes en ingles antiguo desempeña un papel central en la derivación y el desarrollo del léxico. Por otra parte, los verbos fuertes, caracterizados por la apofonía, o ablaut, pueden ser buscados no solo por la terminación flexiva, pero también por la vocal radical, lo que contribuye a refinar el sistema de búsquedas. El punto de partida de esta investigación es que la labor de lematización se puede hacer en parte automáticamente y en parte manualmente. La información contenida en la base de datos, junto con las funcionalidades de Filemaker, pueden maximizar la parte automática del análisis y minimizar la revisión manual. La metodología incluye tres pasos principales: la recopilación de un corpus de verbos fuertes que se adapte al análisis, la identificación de las formas flexivas, y la definición de códigos de búsqueda automática. La lista de verbos fuertes se ha tomado de la lista de referencia de verbos fuertes del Proyecto Nerthus, que se basa en las siete clases de Campbell (1987) y Hogg and Fulk (2011), y en las subclases de Krygier (1994). Para la identificación de las formas flexivas relevantes, los verbos fuertes que no han sido derivados, han sido derivados en el infinitivo, presente de indicativo, pretérito de indicativo, presente de subjuntivo, pretérito de subjuntivo, e imperativo, todos ellos en singular y plural. Para las búsquedas en la base de datos léxica, esta tesis propone un sistema de cuatro códigos de búsqueda sucesivos que están diseñados específicamente para buscar determinadas formas verbales. Aparte del inventario de verbos fuertes, en las conclusiones se presentan resultados en dos áreas. Primero, esta tesis puede responder de manera motivada la cuestión de los límites en la automatización en el análisis morfológico. En segundo lugar, que tesis arroja luz sobre la cuestión de la regularización de la ortografía característica del trabajo lexicográfico o normalización.Universidad de La Rioja (España)Martín Arista, Francisco Javier (Universidad de La Rioja)Torre Alonso, Roberto (Universidad de La Rioja)2015text (thesis)application/pdfhttps://dialnet.unirioja.es/servlet/oaites?codigo=46005engLICENCIA DE USO: Los documentos a texto completo incluidos en Dialnet son de acceso libre y propiedad de sus autores y/o editores. Por tanto, cualquier acto de reproducción, distribución, comunicación pública y/o transformación total o parcial requiere el consentimiento expreso y escrito de aquéllos. Cualquier enlace al texto completo de estos documentos deberá hacerse a través de la URL oficial de éstos en Dialnet. Más información: https://dialnet.unirioja.es/info/derechosOAI | INTELLECTUAL PROPERTY RIGHTS STATEMENT: Full text documents hosted by Dialnet are protected by copyright and/or related rights. This digital object is accessible without charge, but its use is subject to the licensing conditions set by its authors or editors. Unless expressly stated otherwise in the licensing conditions, you are free to linking, browsing, printing and making a copy for your own personal purposes. All other acts of reproduction and communication to the public are subject to the licensing conditions expressed by editors and authors and require consent from them. Any link to this document should be made using its official URL in Dialnet. More info: https://dialnet.unirioja.es/info/derechosOAI |