Print

Print


nt-transfer-encoding: 8BIT

--------------------------   INFOLING   ------------------------------
 Lista de distribuciůn de lingŁŪstica del espaŮol (ISSN: 1576-3404)
                  http://elies.rediris.es/infoling/
    EnvŪo de informaciůn: [log in to unmask]
                             EDITORES:
       Carlos Subirats RŁggeberg, UAB <[log in to unmask]>
           Mar Cruz PiŮol, U. Barcelona <[log in to unmask]>
        Eulalia de Bobes Soler, UAB <[log in to unmask]>
 Equipo de ediciůn: http://elies.rediris.es/infoling/editores.html
Estudios de LingŁŪstica del EspaŮol (ELiEs): http://elies.rediris.es
es una red temŠtica de lingŁŪstica del espaŮol asociada a INFOLING.
----------------------------------------------------------------------

Infoling y ELiEs se editan con el patrocinio del Ministerio de
Ciencia y TecnologŪa de EspaŮa (DIF2003-10302-E): http://www.mcyt.es

----------------------------------------------------------------------
                        Novedad bibliogr√°fica:
    ALMELA, Ram√≥n; CANTOS, Pascual; S√ĀNCHEZ, Aquilino; SARMIENTO, Ram√≥n;
ALMELA, Mois√©s. 2005. Frecuencias del espa√Īol. Diccionario y estudios
léxicos y morfológicos. Madrid: Universitas. (ISBN: 84-7991-171-9,
591 p√°gs.)

      Web del editor: http://www.universitas.es/default.asp
----------------------------------------------------------------------

                              Resumen:

    Esta obra constituye un diccionario del espa√Īol m√°s utilizado en la
actualidad. Sus listados de frecuencia est√°n basados en el Corpus
Cumbre, de 20 millones de palabras referidas al espa√Īol hablado y
escrito actualmente en Espa√Īa y en todos los pa√≠ses de habla hispana.
Las listas de palabras m√°s frecuentes son ya herramientas necesarias
para ling√ľistas, para autores de manuales y para profesores de espa√Īol
como lengua materna  o como lengua extranjera.

    El retraso tradicional que las ciencias antropológicas han tenido
respecto de las ciencias cosmológicas se observa también en el ámbito de
lo que se puede llamar los métodos cuantitativos. Las ciencias del
lenguaje no son una excepción. Durante siglos se ha venido construyendo
un edificio (inacabado e inacabable) de afinadas y atinadas teorías que
se basan en la indagación del sistema. Esto es y será necesario. Sin
embargo, hasta no hace mucho estos estudios especulativos no estaban
acompa√Īados de una (correspondiente) investigaci√≥n cuantitativa. Esta
deficiencia está corrigiéndose. La lengua es un organismo vivo. Los
hablantes la hacen y la hacen evolucionar, en cada uno de sus niveles.
Es en el nivel de las palabras en el que la evolución de las lenguas se
hace m√°s patente. Por eso siempre es conveniente conocer el uso real de
las unidades léxicas.

    Este libro ofrece los datos sobre la frecuencia con que los
hispanohablantes usamos actualmente las palabras y los afijos de nuestra
lengua. Viene a llenar un hueco m√°s que evidente. Hasta ahora cont√°bamos
para el espa√Īol con el diccionario de frecuencias de las palabras del
espa√Īol preparado por Alphons Juilland y E. Chang Rodr√≠guez. Redactado
en ingl√©s y publicado en 1964, fuera de Espa√Īa, los resultados se
basaron en un corpus de 500.000 palabras procedentes de fuentes no
diversificadas.

    El libro de frecuencias del espa√Īol, por el contrario, est√° basado
en el Corpus Cumbre. Este Corpus, de 20 millones de palabras, recoge
fragmentos variados de textos orales y escritos actuales de Espa√Īa e
Hispanoamérica; por el volumen de textos y palabras que contiene y por
sus procedencias, cuidadosamente seleccionadas, puede ser considerado
razonablemente representativo del espa√Īol actual.

    El libro consta de una sección explicativa y de una sección de
anexos. En la sección explicativa se incluyen una introducción, seis
capítulos, un glosario y la bibliografía. En la sección de anexos se
presentan los datos de frecuencia extraídos del Corpus.

    La Introducci√≥n presenta el dise√Īo del Corpus Cumbre, el m√©todo
seguido en el trabajo, así como los argumentos que avalan una
investigación de estas características. No les falta razón a los autores
cuando afirman que en el estudio del lenguaje no se puede seguir el
mismo método que se sigue en el estudio de la filosofía o en el análisis
de la reacci√≥n subjetiva ante un fen√≥meno art√≠stico. El lenguaje ‚Äďdicen‚ÄĎ
¬ęen un porcentaje alt√≠simo, se fundamenta en elementos formales y
claramente objetivables, cuales son, por ejemplo, los sonidos, las
palabras o las formas en general y su ordenación en el discurso. En este
sentido, no habría razón para no adoptar, en los estudios sobre el
lenguaje, métodos de investigación menos especulativos y más
dependientes de los datos que la realidad ling√ľ√≠stica nos proporciona.¬Ľ
La imagen intuitiva que tenemos de la estructura y de la frecuencia del
léxico de nuestra lengua dista mucho a veces de responder a la realidad.
Los datos revelan que la mayor parte de las palabras tienen una
frecuencia baja o muy baja, mientras que son relativamente pocas las que
usan los hablantes con frecuencia muy alta.

    Conviene distinguir entre el uso de las palabras como ‚Äėformas
flexivas‚Äô y de las palabras como ‚Äėlemas‚Äô. El Cap√≠tulo 1 recoge el uso de
las palabras consideradas como formas individuales, no integradas en la
categoría del lema que les pudiera corresponder. Es interesante conocer
este dato, porque nos permitir√° comprobar que no todas las formas de un
lema son objeto de la misma intensidad de uso. Cabe constatar, por
ejemplo, que si bien el verbo tener es frecuentemente usado, la forma
tiene es la m√°s usada de todas sus flexiones. De igual manera la forma
m√°s frecuente del verbo ser es la tercera persona singular del presente
de indicativo (es), como lo es está en relación con el verbo estar. A un
profesor de espa√Īol como lengua extranjera le deber√≠a interesar este
dato para convencerle ‚Äď si no lo estuviera- que vale la pena aprender
pronto una forma irregular como tiene o es. Y a un ling√ľista le podr√≠a
sugerir alguna idea √ļtil sobre las razones del desdoblamiento voc√°lico
de la e espa√Īola, el hecho de que tal desdoblamiento aparece en las
formas más frecuentes y usadas del verbo tener (tiene, tienen, tienes…).
De no menor interés es constatar que las 100 primeras formas
ling√ľ√≠sticas ofrecen un gran contraste de frecuencia: de m√°s de
1.223.000 (de) a 14.965 (poco). Estas distancias en la frecuencia son
notoriamente menores en el resto de la lista.

     El Capítulo 2 aborda el análisis de los lemas. La asignación de
cada forma al lema que le corresponde requiere una revisión manual para
ser fiable. De ahí que el listado de los lemas se haya elaborado a
partir de un subcorpus de Cumbre, de 2 millones de palabras etiquetadas
y revisadas. Dicho subcorpus se recopiló con criterios similares al
corpus general, precisamente para garantizar una razonable
representatividad del espa√Īol actual. Del an√°lisis de los resultados se
deduce que el n√ļmero de lemas en espa√Īol es aproximadamente la mitad que
el n√ļmero de formas (de ah√≠ que este listado de 5.000 lemas equivalga en
realidad al listado anterior, de 10.000 formas), que el lema m√°s
frecuente es el artículo el (y no la preposición de, primera en la lista
de formas), y que las diferencias en frecuencia son bruscas hasta el
lema n√ļmero 20 (como), disminuyendo en intensidad al ascender en la lista.

    Con el fin de dar cuenta de la realidad a caballo entre la forma
directamente observable y los aspectos m√°s abstractos de la
funcionalidad y del potencial comunicativo, el libro incluye, en el
Capítulo 3,  un análisis de la frecuencia de grupos de formas
categorizadas en funci√≥n de criterios gramaticales y l√©xico‚ÄĎsem√°nticos.
La aplicación del primer criterio se concreta en la preparación de un
listado con los 5.000 lemas m√°s frecuentes del espa√Īol, ordenados por
frecuencia (Anexo III). Los datos son extraídos del mismo subcorpus, de
2 millones de palabras.

    Junto a los datos descriptivos ya conocidos: (frecuencia Corpus y
frecuencia relativa/millón) se analizan también la banda de frecuencia y
la categoría gramatical (adjetivo, adverbio, conjunción, artículo,
interjección, preposición, pronombre, sustantivo y verbo). En la medida
en que estos 5.000 lemas puedan ser considerados como representativos
del espa√Īol actual, estos c√≥mputos reflejan que la categor√≠a gramatical
m√°s frecuente es el sustantivo, con casi el 54% sobre el total de los
lemas, seguido a una distancia considerable por el verbo y el adjetivo,
22% y 18%, respectivamente. Se aprecia claramente que los lemas léxicos
(sustantivos, verbos, adjetivos, adverbios e interjecciones) destacan
sobre los lemas funcionales (conjunciones, artículos, preposiciones y
pronombres): 96,92% frente a 3,08%.

    El capítulo se completa con una abstracción de tipo
l√©xico‚ÄĎsem√°ntico: los distintos usos concretos de cada uno de los lemas
de un grupo escogido se agrupan en acepciones, y éstas se someten a un
an√°lisis cuantitativo. Adem√°s, para algunos lemas se incluye un desglose
de la frecuencia de uso de cada acepción por formas del mismo lema. El
estudio parte de los datos del Corpus Cumbre y toma como referencia las
entradas lexicogr√°ficas del Gran Diccionario de Uso del Espa√Īol Actual,
que est√° basado en el mismo corpus y fue dirigido por uno de los autores
del libro. Las conclusiones apuntan a que el potencial sem√°ntico de una
palabra no es indiferente a la frecuencia de uso de sus acepciones, y a
que éstas no tienen por qué relacionarse por igual con todas las formas
flexivas del lema.

    El Capítulo 4 ofrece el primer diccionario de frecuencias de los
afijos del espa√Īol. Se centra en los sufijos y en los prefijos. Tras la
justificación teórica y la detallada explicación del método seguido, los
autores muestran: la frecuencia de los sufijos y los prefijos del
espa√Īol por orden alfab√©tico, as√≠ como su frecuencia por orden
decreciente de las formas y de los lemas que les sirven de base; por
ejemplo: el sufijo ‚Äďi√≥n es el primero por cantidad de formas que lo
llevan y ‚Äďal es el segundo, pero por cantidad de lemas que los llevan
‚Äďi√≥n es el segundo y ‚Äďal es el quinto; en cuanto a los prefijos in‚ÄĎ
afecta a mayor n√ļmero de formas y des‚ÄĎ es el d√©cimo, pero des‚ÄĎ afecta a
m√°s lemas que in‚ÄĎ. Presenta despu√©s una sencilla descripci√≥n ling√ľ√≠stica
de 10 sufijos elegidos entre los 20 m√°s frecuentes, y de los 10 prefijos
m√°s frecuentes. De cada uno de esos 20 afijos se han seleccionado los 30
lemas m√°s frecuentes, con lo cual se alcanza la suma de 600 lexemas:
situación, director, social, importante, verdadero, disponer,
información, encargar, transformar, explicar… Tras haber examinado los
contextos del Corpus Cumbre correspondientes a esos 600 eductos se
extraen los sentidos (o rasgos designativos generales) asignados a cada
uno de los 20 afijos elegidos ‚ÄĎ10 sufijos y 10 prefijos‚ÄĎ; una muestra
limitada de tales contextos acompa√Īa a la explicaci√≥n de tales sentidos.

    El Capítulo 5 resume los datos referidos a las 1.000 combinaciones
de palabras m√°s frecuentes del espa√Īol (las 500 combinaciones de dos y
tres palabras m√°s comunes del espa√Īol). Los datos estad√≠sticos de las
500 combinaciones de dos palabras m√°s frecuentes del espa√Īol suman una
frecuencia total de casi 3.120.000. Importa destacar que todas estas
combinaciones est√°n catalogadas como muy frecuentes. Se trata, pues, de
estructuras sintagm√°ticas muy utilizadas por los hablantes del espa√Īol
(p. ej.: de la, en el, de los, en la, etc.), lexicalizadas o
combinaciones inseparables (p. ej.: creo que, hay que, después de, sin
embargo, a ver, etc.). En cuanto a las combinaciones de tres palabras,
los datos descriptivos arrojan notables diferencias con respecto a sus
homólogas de dos palabras. Se aprecia un descenso muy notable en las
frecuencias con respecto a las combinaciones menos usadas de dos
palabras. Las combinaciones de tres palabras m√°s usadas por los
hablantes tienen casi la misma frecuencia que las menos frecuentes de
dos palabras. Entre las combinaciones de tres palabras m√°s frecuentes
figuran: preposición + artículo + sustantivo (17%; de la vida, en el
caso, por otra parte, etc.), artículo + sustantivo + preposición (11%;
el caso de, una serie de, la mayoría de, etc.) y preposición + artículo
+ pronombre (7%; en el que, a la que, etc.).

    El Cap√≠tulo 6 presenta un modelo de an√°lisis de las co‚ÄĎocurrencias y
los colocados de una palabra determinada. El objetivo de los autores es
ofrecer un método de trabajo y sugerir nuevos y más eficientes
procedimientos de an√°lisis. Para ello se analizan y contrastan las
co‚ÄĎocurrencias y los colocados de los sustantivos mujer y hombre.

    Tras el glosario de términos estadísticos y una bibliografía
elemental, siguen m√°s de 400 p√°ginas con los anexos. La rese√Īa de los
anexos es innecesaria; pero sí destacaremos algunos aspectos
significativos: los anexos 1 y 2 incluyen datos específicos referidos a
la frecuencia absoluta, frecuencia relativa por millón y banda de
frecuencia sobre cada una de las formas y lemas; el anexo 3 incluye
además la categoría gramatical referida a cada lema; los anexos 4 y 5,
centrados en las combinaciones de dos y tres palabras m√°s frecuentes,
contienen las mismos datos que los incluidos en los anexos 1 y 2;
finalmente, los distintos apartados del anexo 6 ofrecen mapas de las
co-ocurrencias y listados de colocaciones de mujer y hombre.

    La relativa novedad de este tipo de estudios hace que todavía no se
hayan puesto de manifiesto los beneficios que pueden aportar en √°reas
como la lexicografía, la lexicología, la morfología en general, la
sintaxis o, m√°s espec√≠ficamente, la ense√Īanza del espa√Īol como lengua no
materna. Disponer de una obra de estas características ayudará a
calibrar, con datos objetivos, el peso de una palabra, de una
combinación, de un afijo… Es posible determinar que algunos sentidos que
aparecen en muchos diccionarios apenas tienen relevancia para los
hablantes. O que un adjetivo prefiere una posición anterior cuando
acompa√Īa a un determinado sustantivo, o posterior cuando acompa√Īa a
otro: la combinación persona alta es mucho más frecuente que alta
persona, pero alta personalidad lo es mucho m√°s que personalidad alta.
Incluso para quien busca, por razones estilísticas, la
desautomatización, puede hallar aquellas palabras o combinaciones de
palabras m√°s infrecuentes.

    Creo que hay que dar la bienvenida a este libro, que ofrece tantas
buenas razones cuantitativas para conocer mejor nuestra lengua. Lo que
nos ofrece directamente es la norma (= uso consolidado) del espa√Īol;
pero no olvidemos que la norma es la cara visible del sistema.



                              √ćndice

Introducción general

Capítulo 1. Las 10.000 formas más frecuentes

Capítulo 2. Los 5.000 lemas más frecuentes

Capítulo 3. Agrupación de los 5.000 lemas más frecuentes por categorías
gramaticales

Capítulo 4. Los afijos

Capítulo 5. Las 1.000 combinaciones de palabras más frecuentes

Capítulo 6. Co-ocurrencias y colocados: un modelo de análisis

Glosario de términos estadísticos utilizados

Bibliografía

Anexos

----------------------------------------------------------------------
Desde la web de Infoling en http://elies.rediris.es/infoling/ puedes
consultar todos los mensajes mandados a la lista desde 1998.
----------------------------------------------------------------------