Print

Print


o lo es está en relación con el verbo estar. A un
profesor de español como lengua extranjera le debería interesar este
dato para convencerle – si no lo estuviera- que vale la pena aprender
pronto una forma irregular como tiene o es. Y a un lingüista le podría
sugerir alguna idea útil sobre las razones del desdoblamiento vocálico
de la e española, el hecho de que tal desdoblamiento aparece en las
formas más frecuentes y usadas del verbo tener (tiene, tienen, tienes…).
De no menor interés es constatar que las 100 primeras formas
lingüísticas ofrecen un gran contraste de frecuencia: de más de
1.223.000 (de) a 14.965 (poco). Estas distancias en la frecuencia son
notoriamente menores en el resto de la lista.

     El Capítulo 2 aborda el análisis de los lemas. La asignación de
cada forma al lema que le corresponde requiere una revisión manual para
ser fiable. De ahí que el listado de los lemas se haya elaborado a
partir de un subcorpus de Cumbre, de 2 millones de palabras etiquetadas
y revisadas. Dicho subcorpus se recopiló con criterios similares al
corpus general, precisamente para garantizar una razonable
representatividad del español actual. Del análisis de los resultados se
deduce que el número de lemas en español es aproximadamente la mitad que
el número de formas (de ahí que este listado de 5.000 lemas equivalga en
realidad al listado anterior, de 10.000 formas), que el lema más
frecuente es el artículo el (y no la preposición de, primera en la lista
de formas), y que las diferencias en frecuencia son bruscas hasta el
lema número 20 (como), disminuyendo en intensidad al ascender en la lista.

    Con el fin de dar cuenta de la realidad a caballo entre la forma
directamente observable y los aspectos más abstractos de la
funcionalidad y del potencial comunicativo, el libro incluye, en el
Capítulo 3,  un análisis de la frecuencia de grupos de formas
categorizadas en función de criterios gramaticales y léxico‑semánticos.
La aplicación del primer criterio se concreta en la preparación de un
listado con los 5.000 lemas más frecuentes del español, ordenados por
frecuencia (Anexo III). Los datos son extraídos del mismo subcorpus, de
2 millones de palabras.

    Junto a los datos descriptivos ya conocidos: (frecuencia Corpus y
frecuencia relativa/millón) se analizan también la banda de frecuencia y
la categoría gramatical (adjetivo, adverbio, conjunción, artículo,
interjección, preposición, pronombre, sustantivo y verbo). En la medida
en que estos 5.000 lemas puedan ser considerados como representativos
del español actual, estos cómputos reflejan que la categoría gramatical
más frecuente es el sustantivo, con casi el 54% sobre el total de los
lemas, seguido a una distancia considerable por el verbo y el adjetivo,
22% y 18%, respectivamente. Se aprecia claramente que los lemas léxicos
(sustantivos, verbos, adjetivos, adverbios e interjecciones) destacan
sobre los lemas funcionales (conjunciones, artículos, preposiciones y
pronombres): 96,92% frente a 3,08%.

    El capítulo se completa con una abstracción de tipo
léxico‑semántico: los distintos usos concretos de cada uno de los lemas
de un grupo escogido se agrupan en acepciones, y éstas se someten a un
análisis cuantitativo. Además, para algunos lemas se incluye un desglose
de la frecuencia de uso de cada acepción por formas del mismo lema. El
estudio parte de los datos del Corpus Cumbre y toma como referencia las
entradas lexicográficas del Gran Diccionario de Uso del Español Actual,
que está basado en el mismo corpus y fue dirigido por uno de los autores
del libro. Las conclusiones apuntan a que el potencial semántico de una
palabra no es indiferente a la frecuencia de uso de sus acepciones, y a
que éstas no tienen por qué relacionarse por igual con todas las formas
flexivas del lema.

    El Capítulo 4 ofrece el primer diccionario de frecuencias de los
afijos del español. Se centra en los sufijos y en los prefijos. Tras la
justificación teórica y la detallada explicación del método seguido, los
autores muestran: la frecuencia de los sufijos y los prefijos del
español por orden alfabético, así como su frecuencia por orden
decreciente de las formas y de los lemas que les sirven de base; por
ejemplo: el sufijo –ión es el primero por cantidad de formas que lo
llevan y –al es el segundo, pero por cantidad de lemas que los llevan
–ión es el segundo y –al es el quinto; en cuanto a los prefijos in‑
afecta a mayor número de formas y des‑ es el décimo, pero des‑ afecta a
más lemas que in‑. Presenta después una sencilla descripción lingüística
de 10 sufijos elegidos entre los 20 más frecuentes, y de los 10 prefijos
más frecuentes. De cada uno de esos 20 afijos se han seleccionado los 30
lemas más frecuentes, con lo cual se alcanza la suma de 600 lexemas:
situación, director, social, importante, verdadero, disponer,
información, encargar, transformar, explicar… Tras haber examinado los
contextos del Corpus Cumbre correspondientes a esos 600 eductos se
extraen los sentidos (o rasgos designativos generales) asignados a cada
uno de los 20 afijos elegidos ‑10 sufijos y 10 prefijos‑; una muestra
limitada de tales contextos acompaña a la explicación de tales sentidos.

    El Capítulo 5 resume los datos referidos a las 1.000 combinaciones
de palabras más frecuentes del español (las 500 combinaciones de dos y
tres palabras más comunes del español). Los datos estadísticos de las
500 combinaciones de dos palabras más frecuentes del español suman una
frecuencia total de casi 3.120.000. Importa destacar que todas estas
combinaciones están catalogadas como muy frecuentes. Se trata, pues, de
estructuras sintagmáticas muy utilizadas por los hablantes del español
(p. ej.: de la, en el, de los, en la, etc.), lexicalizadas o
combinaciones inseparables (p. ej.: creo que, hay que, después de, sin
embargo, a ver, etc.). En cuanto a las combinaciones de tres palabras,
los datos descriptivos arrojan notables diferencias con respecto a sus
homólogas de dos palabras. Se aprecia un descenso muy notable en las
frecuencias con respecto a las combinaciones menos usadas de dos
palabras. Las combinaciones de tres palabras más usadas por los
hablantes tienen casi la misma frecuencia que las menos frecuentes de
dos palabras. Entre las combinaciones de tres palabras más frecuentes
figuran: preposición + artículo + sustantivo (17%; de la vida, en el
caso, por otra parte, etc.), artículo + sustantivo + preposición (11%;
el caso de, una serie de, la mayoría de, etc.) y preposición + artículo
+ pronombre (7%; en el que, a la que, etc.).

    El Capítulo 6 presenta un modelo de análisis de las co‑ocurrencias y
los colocados de una palabra determinada. El objetivo de los autores es
ofrecer un método de trabajo y sugerir nuevos y más eficientes
procedimientos de análisis. Para ello se analizan y contrastan las
co‑ocurrencias y los colocados de los sustantivos mujer y hombre.

    Tras el glosario de términos estadísticos y una bibliografía
elemental, siguen más de 400 páginas con los anexos. La reseña de los
anexos es innecesaria; pero sí destacaremos algunos aspectos
significativos: los anexos 1 y 2 incluyen datos específicos referidos a
la frecuencia absoluta, frecuencia relativa por millón y banda de
frecuencia sobre cada una de las formas y lemas; el anexo 3 incluye
además la categoría gramatical referida a cada lema; los anexos 4 y 5,
centrados en las combinaciones de dos y tres palabras más frecuentes,
contienen las mismos datos que los incluidos en los anexos 1 y 2;
finalmente, los distintos apartados del anexo 6 ofrecen mapas de las
co-ocurrencias y listados de colocaciones de mujer y hombre.

    La relativa novedad de este tipo de estudios hace que todavía no se
hayan puesto de manifiesto los beneficios que pueden aportar en áreas
como la lexicografía, la lexicología, la morfología en general, la
sintaxis o, más específicamente, la enseñanza del español como lengua no
materna. Disponer de una obra de estas características ayudará a
calibrar, con datos objetivos, el peso de una palabra, de una
combinación, de un afijo… Es posible determinar que algunos sentidos que
aparecen en muchos diccionarios apenas tienen relevancia para los
hablantes. O que un adjetivo prefiere una posición anterior cuando
acompaña a un determinado sustantivo, o posterior cuando acompaña a
otro: la combinación persona alta es mucho más frecuente que alta
persona, pero alta personalidad lo es mucho más que personalidad alta.
Incluso para quien busca, por razones estilísticas, la
desautomatización, puede hallar aquellas palabras o combinaciones de
palabras más infrecuentes.

    Creo que hay que dar la bienvenida a este libro, que ofrece tantas
buenas razones cuantitativas para conocer mejor nuestra lengua. Lo que
nos ofrece directamente es la norma (= uso consolidado) del español;
pero no olvidemos que la norma es la cara visible del sistema.



                              Índice

Introducción general

Capítulo 1. Las 10.000 formas más frecuentes

Capítulo 2. Los 5.000 lemas más frecuentes

Capítulo 3. Agrupación de los 5.000 lemas más frecuentes por categorías
gramaticales

Capítulo 4. Los afijos

Capítulo 5. Las 1.000 combinaciones de palabras más frecuentes

Capítulo 6. Co-ocurrencias y colocados: un modelo de análisis

Glosario de términos estadísticos utilizados

Bibliografía

Anexos

----------------------------------------------------------------------
Desde la web de Infoling en http://elies.rediris.es/infoling/ puedes
consultar todos los mensajes mandados a la lista desde 1998.
----------------------------------------------------------------------