INFOLING. Lista moderada de lingüística española (ISSN: 1576-3404) España: http://www.rediris.es/list/info/infoling.html EE.UU: http://listserv.linguistlist.org/archives/infoling.html ESTUDIOS DE LINGÜÍSTICA ESPAÑOLA http://elies.rediris.es Envío de información: mailto:[log in to unmask] Editores: Eulalia de Bobes Soler, UAB, mailto:[log in to unmask] Carlos Subirats Rüggeberg, UAB, mailto:[log in to unmask] Mar Cruz Piñol, UB, mailto:[log in to unmask] Información sobre cursos y congresos: Laura Canós, mailto:[log in to unmask] Lídia Moya, UAB, mailto:[log in to unmask] Blanca Pascual, UAB, mailto:[log in to unmask] Comité de redacción: http://elies.rediris.es/#Comite_de_redaccion ____________________________________________________________________ Star Servicios Lingüísticos patrocinador de Infoling y ELiEs. Nuevas tecnologías aplicadas a la traducción y la terminología multilingüe. Especialistas en la traducción de documentación técnica al español: http://www.star-group.net/star-group/stbar/principal.html ____________________________________________________________________ Novedad bibliográfica: Quesada Moreno, José Francisco; de Amores Carredano, José Gabriel. 2000. Diseño e implementación de sistemas de traducción automática. Sevilla (España): Universidad de Sevilla (ISBN: 84-472-0585-1; precio: 27 euros, 4500 Pts.) ____________________________________________________________________ Resumen Este libro ha sido el resultado del intento de unión y fusión coherente de los primeros resultados de investigación obtenidos durante los primeros 5 años de colaboración entre los autores (de 1993 a 1998). Como resultado de este periodo se obtuvo el sistema que hemos denominado Episteme (al que se dedica específicamente el capítulo VI). Aunque hemos calificado a Episteme como una herramienta para el diseño e implementación de sistemas de traducción automática, la tecnología que se encuentra tras este sistema, debido al carácter complejo y completo de la misma traducción automática, puede ser utilizada en diferentes campos relacionados con la Ingeniería del Lenguaje. El contenido del libro se ha distribuido en tres grandes bloques. La primera parte (C, Lex y Yacc) ofrece una introducción a las herramientas Lex, un generador de analizadores léxicos para expresiones regulares y Yacc, un generador de analizadores sintácticos para gramáticas LALR(1). Estas herramientas poseen una doble utilidad: de un lado, se pueden usar para tratar directamente ciertos fenómenos lingüísticos simples. Cuando el sublenguaje asociado con nuestro problema no requiera nada más, ésta será sin duda la mejor solución. Pero, además, Lex y Yacc permiten estructurar las entradas de cualquier programa informático. Es decir, permiten el diseño de lenguajes de especificación. Con este objetivo, ambas herramientas se usarán en los sistemas Doxa y Episteme, a los que se dedican las partes II y III. En la primera parte se abordará asimismo el estudio del lenguaje de programación C y su enlace con Lex y Yacc. De entre el conjunto de técnicas de programación en C, se hará especial hincapié en el uso de estructuras y punteros y en la asignación dinámica de memoria. La segunda parte (Doxa) muestra las limitaciones de Lex (incapacidad para el tratamiento de la ambigüedad léxica) y de Yacc (incapacidad para el tratamiento de la ambigüedad sintáctica) para el tratamiento de los fenómenos lingüísticos de un lenguaje natural, lo que justifica el desarrollo de algoritmos más potentes. Doxa permite la representación de estructuras complejas de conocimiento asociadas con cada término del lenguaje (aunque la semántica del lenguaje de especificación es aún limitada). A partir de una cadena de palabras, Doxa obtiene todos los árboles de análisis posibles para aquélla, usando un algoritmo basado en chart. Además, partiendo de la información definida en el léxico para cada palabra, y de las ecuaciones funcionales asociadas con cada regla sintáctica, Doxa construye la interpretación funcional asociada a cada árbol sintáctico, al estilo LFG. Si para esta segunda parte el objetivo básico que se persigue es la simplicidad, se reserva para la tercera parte (Episteme) el objetivo de la eficiencia, convirtiéndose así en el núcleo del libro. Episteme es en realidad un prototipo de un entorno para el desarrollo de sistemas de traducción automática. Para el tratamiento del léxico cuenta con un módulo para la gestión de grandes bases de conocimiento basado en una organización tetradimensional de árboles binarios con corte vertical mejorados. Su analizador sintáctico se basa en una técnica de análisis bidireccional ascendente dirigido por eventos y con propagación de restricciones. Incluye, además, módulos de unificación, transferencia y generación (léxica y estructural). El objetivo de Episteme ha sido demostrar que es posible obtener una implementación eficiente tras un esfuerzo de programación no excesivo y capaz de tratar gran parte de los fenómenos propios de los lenguajes naturales. Indice I Procesamiento del Lenguaje Natural en C I.1. Lenguaje natural I.2. Procesamiento del lenguaje natural I.3. Procesamiento del lenguaje natural en C I.4. Estructura del libro I.5. Distribución del código fuente de los ejemplos e instalación Parte I: C, lex y yacc II Introducción a C para PLN II.1. Programación de ordenadores: modelos II.2. C II.3. La noción de función en C II.4. Autómatas de estados finitos: nociones básicas sobre programación en C II.5. Recursividad II.6. Autómatas de estados finitos no deterministas: backtracking en C II.7. Sublenguajes naturales regulares II.8. Punteros, estructuras y memoria: análisis de las frecuencias de las palabras de un corpus III. Lex, Yacc y C III.1. Algoritmos y lenguajes de especificación III.2. Lex III.3. Yacc III.4. Enlace entre C, Lex y Yacc: SEG (Simple English Grammar) III.5. Los límites de Lex y Yacc en PLN Parte II Doxa: Chart con unificación IV Doxa: Chart con Unificación IV.1. Análisis sintáctico y unificación IV.2. El lenguaje de especificación de Doxa IV.3. El parser de Doxa IV.4. El unificador de Doxa IV.5. De Doxa a Episteme Parte III Episteme: Un Prototipo de Traducción Automática V Léxico y Morfología (Los sistemas Vtree y Mph) V.1. Estructuras de rasgos y representación de conocimiento lingüístico V.2. Una arquitectura basada en capas para la representación y almacenamiento de grandes bases de conocimiento V.3. Vtree: almacenamiento y recuperación eficientes de grandes bases de conocimiento V.4. Mph: especificación de conocimiento lingüístico y generación morfológica V.5. Enlace entre Vtree y Mph V.6. Conclusión VI Traducción Automática (Episteme) VI.1. Traducción Automática VI.2. Episteme: introducción VI.3. Análisis léxico-morfológico VI.4. Análisis sintáctico VI.5. Unificación VI.6. Transferencia VI.7. Generación VI.8. Configuración y estadísticas VI.9. Traducción de construcciones resultativas Bibliografía Pedidos: http://publius.cica.es mailto:[log in to unmask] Dirección postal: C. Porvenir, 27, Sevilla (España) Tel.: +34-95-448-7446, Fax: +34-95-448-7443 ---------------------------------------------------- Los artículos de INFOLING son distribuidos gracias al apoyo y colaboración técnica de RedIRIS - Red Académica española - (http://www.rediris.es) ------------------------------------------------------