The Lemmatisation of Old English Weak Verbs on a Relational Database

Resumen en castellano: Esta tesis trata de la morfología verbal del inglés antiguo para identificar y lematizar los verbos débiles de esta lengua en un corpus al que se accede a través de una base de datos léxica. La lematización es una de las tareas más importantes a la hora de construir un diccion...

Descripción completa

Guardado en:

Detalles Bibliográficos
Autor principal:	Tío Sáenz, Marta
Otros Autores:	Martín Arista, Francisco Javier (null)
Formato:	text (thesis)
Lenguaje:	eng
Publicado:	Universidad de La Rioja (España) 2019
Acceso en línea:	https://dialnet.unirioja.es/servlet/oaites?codigo=246390
Etiquetas:	Agregar Etiqueta Sin Etiquetas, Sea el primero en etiquetar este registro!

id	oai-TES0000022917
record_format	dspace
institution	DialNet
collection	DialNet
language	eng
description	Resumen en castellano: Esta tesis trata de la morfología verbal del inglés antiguo para identificar y lematizar los verbos débiles de esta lengua en un corpus al que se accede a través de una base de datos léxica. La lematización es una de las tareas más importantes a la hora de construir un diccionario. Sin embargo, es una de las tareas pendientes en el campo de la lingüística histórica debido a que no existen corpora exhaustivos y lematizados de esta lengua. El enfoque de esta tesis doctoral está en la lematización de las tres clases de verbos débiles del inglés antiguo, aunque las áreas de la Lexicografía y la Lingüística de Corpus son también relevantes para esta investigación. Las fuentes principales de esta investigación son las formas flexivas que están atestiguadas en el Dictionary of Old English Corpus (DOEC) y que están disponibles en el lematizador Norna, las fuentes lexicográficas que existen publicadas sobre esta lengua, principalmente el Dictionary of Old English (DOE), y otras fuentes textuales como el York-Toronto-Helsinki Parsed Corpus of Old English (YCOE) y una indexación de fuentes secundarias del inglés antiguo. El objetivo principal supone la identificación de las flexiones de los verbos débiles y de su lematización con uno de los lemas propuestos en las listas de referencia. Conseguir este objetivo implica manejar las fuentes disponibles en inglés antiguo para poder lematizar y validar los resultados del análisis y el diseño de un método que combine búsquedas automáticas en la base de datos léxica Nerthus y la revisión manual de los resultados. La metodología incluye cuatro pasos sucesivos con diversas tareas en cada paso. El primero de estos pasos tiene como objetivo la lematización de las formas canónicas de los verbos débiles lanzando cadenas de búsquedas específicas para cada clase de verbos débiles en el lematizador Norna, donde está disponible un índice de tipos del DOEC, la fuente de información más fiable de la que se dispone en inglés antiguo. Después, los resultados se validan con el DOE y se añaden las formas no-canónicas de los verbos débiles entre las letras A y H. El tercer paso tiene como objetivo identificar las formas no-canónicas de las terminaciones flexivas y de las vocales de los radicales que aparecen con más frecuencia en los verbos débiles para generar patrones de lematización. La búsqueda de estos patrones y de la lista de prefijos no-canónicos que está disponible en Norna culmina en la lematización de las formas flexivas no transparentes de los verbos débiles. La validación de los resultados de las letras I a la Y supone el último paso de la metodología, donde se comparan los datos obtenidos con el análisis sintáctico del YCOE y con los datos que se obtienen de una base de datos de indexación de las fuentes secundarias del inglés antiguo. Los problemas que surgen a lo largo del proceso de lematización tienen que ver principalmente con las peculiaridades del inglés antiguo y las limitaciones de la lematización de tipos que esta investigación sigue. La discusión de los resultados del análisis concluye esta tesis. Las principales aportaciones de esta tesis son las listas de lemas y sus formas flexivas, especialmente las de los verbos entre las letras I y la Y ya que no están disponibles todavía, y el método que se ha diseñado para identificar estas formas, incluyendo los patrones de lematización generados para lematizar las formas con terminaciones no comunes y vocales no canónicas en el radical.
author2	Martín Arista, Francisco Javier (null)
author_facet	Martín Arista, Francisco Javier (null) Tío Sáenz, Marta
format	text (thesis)
author	Tío Sáenz, Marta
spellingShingle	Tío Sáenz, Marta The Lemmatisation of Old English Weak Verbs on a Relational Database
author_sort	Tío Sáenz, Marta
title	The Lemmatisation of Old English Weak Verbs on a Relational Database
title_short	The Lemmatisation of Old English Weak Verbs on a Relational Database
title_full	The Lemmatisation of Old English Weak Verbs on a Relational Database
title_fullStr	The Lemmatisation of Old English Weak Verbs on a Relational Database
title_full_unstemmed	The Lemmatisation of Old English Weak Verbs on a Relational Database
title_sort	lemmatisation of old english weak verbs on a relational database
publisher	Universidad de La Rioja (España)
publishDate	2019
url	https://dialnet.unirioja.es/servlet/oaites?codigo=246390
work_keys_str_mv	AT tiosaenzmarta thelemmatisationofoldenglishweakverbsonarelationaldatabase AT tiosaenzmarta lemmatisationofoldenglishweakverbsonarelationaldatabase
_version_	1718346681884344320
spelling	oai-TES00000229172019-11-22The Lemmatisation of Old English Weak Verbs on a Relational DatabaseTío Sáenz, MartaResumen en castellano: Esta tesis trata de la morfología verbal del inglés antiguo para identificar y lematizar los verbos débiles de esta lengua en un corpus al que se accede a través de una base de datos léxica. La lematización es una de las tareas más importantes a la hora de construir un diccionario. Sin embargo, es una de las tareas pendientes en el campo de la lingüística histórica debido a que no existen corpora exhaustivos y lematizados de esta lengua. El enfoque de esta tesis doctoral está en la lematización de las tres clases de verbos débiles del inglés antiguo, aunque las áreas de la Lexicografía y la Lingüística de Corpus son también relevantes para esta investigación. Las fuentes principales de esta investigación son las formas flexivas que están atestiguadas en el Dictionary of Old English Corpus (DOEC) y que están disponibles en el lematizador Norna, las fuentes lexicográficas que existen publicadas sobre esta lengua, principalmente el Dictionary of Old English (DOE), y otras fuentes textuales como el York-Toronto-Helsinki Parsed Corpus of Old English (YCOE) y una indexación de fuentes secundarias del inglés antiguo. El objetivo principal supone la identificación de las flexiones de los verbos débiles y de su lematización con uno de los lemas propuestos en las listas de referencia. Conseguir este objetivo implica manejar las fuentes disponibles en inglés antiguo para poder lematizar y validar los resultados del análisis y el diseño de un método que combine búsquedas automáticas en la base de datos léxica Nerthus y la revisión manual de los resultados. La metodología incluye cuatro pasos sucesivos con diversas tareas en cada paso. El primero de estos pasos tiene como objetivo la lematización de las formas canónicas de los verbos débiles lanzando cadenas de búsquedas específicas para cada clase de verbos débiles en el lematizador Norna, donde está disponible un índice de tipos del DOEC, la fuente de información más fiable de la que se dispone en inglés antiguo. Después, los resultados se validan con el DOE y se añaden las formas no-canónicas de los verbos débiles entre las letras A y H. El tercer paso tiene como objetivo identificar las formas no-canónicas de las terminaciones flexivas y de las vocales de los radicales que aparecen con más frecuencia en los verbos débiles para generar patrones de lematización. La búsqueda de estos patrones y de la lista de prefijos no-canónicos que está disponible en Norna culmina en la lematización de las formas flexivas no transparentes de los verbos débiles. La validación de los resultados de las letras I a la Y supone el último paso de la metodología, donde se comparan los datos obtenidos con el análisis sintáctico del YCOE y con los datos que se obtienen de una base de datos de indexación de las fuentes secundarias del inglés antiguo. Los problemas que surgen a lo largo del proceso de lematización tienen que ver principalmente con las peculiaridades del inglés antiguo y las limitaciones de la lematización de tipos que esta investigación sigue. La discusión de los resultados del análisis concluye esta tesis. Las principales aportaciones de esta tesis son las listas de lemas y sus formas flexivas, especialmente las de los verbos entre las letras I y la Y ya que no están disponibles todavía, y el método que se ha diseñado para identificar estas formas, incluyendo los patrones de lematización generados para lematizar las formas con terminaciones no comunes y vocales no canónicas en el radical.This thesis deals with the verbal morphology of the Old English language in order to identify and lemmatise weak verbs in a corpus accessed through a lexical database. Lemmatisation is a pending task in the field of historical linguistics given the lack of comprehensive and lemmatised corpora in this language. The focus of this doctoral dissertation is on the lemmatisation of the three classes of weak verbs, although the linguistic fields of Lexicography and Corpus Linguistics are also relevant to this research. The main aim involves the identification of the canonical and non-canonical realisations of the Old English weak verbs and their lemmatisation with a lemma from a reference list of weak verbs. Achieving this goal involves, firstly, the use of the available sources of the Old English language in order to lemmatise and validate the results and, secondly, the design of a semi-automatic research methodology that combines automatic searches in the lexical database Nerthus and the manual revision of the results in order to achieve this task. The sources for this investigation are the inflectional forms that are attested in the Dictionary of Old English Corpus (DOEC) which are available in the lemmatiser Norna, the lexicographical sources published on the Old English language, mainly the Dictionary of Old English (DOE), and other textual sources such as the York-Toronto-Helsinki Parsed Corpus of Old English (YCOE) and an index of secondary sources of Old English. The methodology comprises four successive steps and several tasks within each step. The first step aims at the lemmatisation of the transparent forms of weak verbs with the search of specific query strings for each subclass of weak verbs in the lemmatiser Norna, where an index type of the DOEC, the most reliable source of information regarding the Old English language, is available. Then, the second step validates the results with the DOE and adds to the analysis the non-canonical attestations for the weak verbs from the letter A-H. Thirdly, the identification of the most recurrent non-canonical inflectional endings and stem vowels attested in weak verbs gives rise to lemmatisation patterns. The search of these sets of correspondences and the list of non-canonical prefixes that is available in Norna results in the lemmatisation of the non-canonical inflections of weak verbs. The validation of the results from the letter I-Y concludes the research methodology with the syntactic parsing provided by the YCOE and the data retrieved from the index of secondary sources of Old English Freya. The issues that arise throughout the lemmatisation process mainly concern the idiosyncrasy of the Old English language writing system and the limitations of the lemmatisation by type that this investigation follows. The quantitative and qualitative discussion of the results of the analysis concludes this thesis. The main contributions of this thesis are the lists of weak lemmas and their lemmatised inflectional forms, specially those of the verbs I-Y which are not available yet and the designed research methodology to identify these forms, including the sets of lemmatisation patterns of the non-canonical inflectional endings and stem vowels of weak verbs.Universidad de La Rioja (España)Martín Arista, Francisco Javier (null)Kirner Ludwig, Monika (null)2019text (thesis)application/pdfhttps://dialnet.unirioja.es/servlet/oaites?codigo=246390engLICENCIA DE USO: Los documentos a texto completo incluidos en Dialnet son de acceso libre y propiedad de sus autores y/o editores. Por tanto, cualquier acto de reproducción, distribución, comunicación pública y/o transformación total o parcial requiere el consentimiento expreso y escrito de aquéllos. Cualquier enlace al texto completo de estos documentos deberá hacerse a través de la URL oficial de éstos en Dialnet. Más información: https://dialnet.unirioja.es/info/derechosOAI \| INTELLECTUAL PROPERTY RIGHTS STATEMENT: Full text documents hosted by Dialnet are protected by copyright and/or related rights. This digital object is accessible without charge, but its use is subject to the licensing conditions set by its authors or editors. Unless expressly stated otherwise in the licensing conditions, you are free to linking, browsing, printing and making a copy for your own personal purposes. All other acts of reproduction and communication to the public are subject to the licensing conditions expressed by editors and authors and require consent from them. Any link to this document should be made using its official URL in Dialnet. More info: https://dialnet.unirioja.es/info/derechosOAI

The Lemmatisation of Old English Weak Verbs on a Relational Database

Ejemplares similares