INFOLING Lista moderada de lingüística española http://listserv.rediris.es/archives/infoling.html Envío de información: [log in to unmask] Consultas: [log in to unmask] Editor: Carlos Subirats Rüggeberg <[log in to unmask]> Colaboradoras: Paola Bentivoglio <[log in to unmask]>, UCV Eulalia de Bobes <[log in to unmask]>, UAB Mar Cruz <[log in to unmask]>, UB Emma Martinell <[log in to unmask]>, UB _____________________________________________________ Proyecto de investigación: Análisis léxico y sintáctico automáticos de la lengua española http://cc.uab.es/~ilfe1 _____________________________________________________ 1. Título del proyecto: Análisis léxico y sintáctico automáticos de la lengua española 2. Período de duración: 1996/99 3. Investigador principal: Carlos Subirats Rüggeberg <[log in to unmask]> 4. Entidad que financia el proyecto: Ministerio de Educación y Ciencia, España (Proyecto del Plan Nacional de Tecnología de la Información y de las Comunicaciones, TIC96-804) 5. Miembros del equipo de investigación: Eulalia de Bobes, Becaria FPI <[log in to unmask]> Sebastián Galera, Servicios Informáticos, UAB <[log in to unmask]> Marc Ortega, Ingeniero en Informática <[log in to unmask]> Antonio Ríos, Facultad de Traducción e Interpretación <[log in to unmask]> Jordi Valls, Facultad de Ingeniería Informática, UAB <[log in to unmask]> 6. Laboratorio en el que se está desarrollando: Laboratorio de Lingüística Informática (LaLI) Universidad Autónoma de Barcelona 7. Resumen: Este proyecto de investigación está centrado en el desarrollo de aplicaciones destinadas al tratamiento automático de la información textual y a la extracción automática de información de grandes corpus en lengua española, partiendo de la utilización de bases de conocimiento léxico y sintáctico. La base de conocimiento léxico (BCL) está integrada por un diccionario electrónico de 600,000 formas, que integra todas las formas posibles pertenecientes al léxico general de la lengua española. La BCL se expande automáticamente a partir de un diccionario de formas canónicas, que está integrado por 92,000 entradas: - 66,000 formas simples, es decir, cadenas de caracteres entre dos espacios en blanco; - 26,000 formas compuestas o locuciones, es decir, los elementos léxicos formados por más de una forma simple. Cada una de las formas que integran la BCL va acompañada de un conjunto de códigos y especificaciones léxicas, que indican: - la forma canónica o lema al que está asociado (en el caso de las clases de palabras que no admiten flexión, como p. ej., los adverbios, las conjunciones, etc., la forma canónica coincide con la entrada de la BCL); - la clase de palabras a la que pertenece la forma de la BCL ; - las propiedades flexivas tiempo, modo, persona y número en el caso de los verbos, y las de género y/o número en el caso de los nombres y adjetivos. El primer proceso al que se someten los textos es la etiquetación, que consiste en: - la identificación automática de todas sus formas simples y compuestas; - la asignación de sus propiedades flexivas y/o categoriales; - la especificación de sus posibles ambigüedades. El resultado de la etiquetación se formaliza en un autómata que se puede visualizar mediante una aplicación gráfica. Una gran parte de las ambigüedades que genera el proceso de etiquetación se eliminan posteriormente, intersectando el autómata que crea el etiquetador con transductores, que formalizan restricciones léxicas locales. Tras este proceso de desambiguación es posible identificar construcciones sintácticas con gramáticas en forma de transductores, lo cual permite procesar la información textual. En el marco de este proyecto se está desarrollando una Base de Conocimiento Sintáctico (BCS), que consiste en una representación en forma de transductores de las propiedades de dependencia y de las propiedades transformacionales de los predicados del léxico del español. El objetivo de la BCS es formalizar las características sintácticas de las construcciones que permiten vehicular la información en español y, a su vez, desarrollar una base de conocimiento que permita mejorar el proceso de extracción automático de la información textual. Más información en la última publicación sobre el proyecto: http://cc.uab.es/~ilfe1/estado_actual.zip 8. Dirección postal y teléfono: Laboratorio de Lingüística Informática Universidad Autónoma de Barcelona Facultad de Letras, Edificio B 08193 Bellaterra, ESPAÑA Fax: + 34-93-581-16-86 Tel: + 34-93-581-22-29 ---------------------------------------------------- Formatos para enviar informacion a INFOLING. Enviar a [log in to unmask] la orden: INFO INFOLING ----------------------------------------------------