LISTSERV mailing list manager LISTSERV 16.0

Help for INFOLING Archives


INFOLING Archives

INFOLING Archives


INFOLING@LISTSERV.REDIRIS.ES


View:

Message:

[

First

|

Previous

|

Next

|

Last

]

By Topic:

[

First

|

Previous

|

Next

|

Last

]

By Author:

[

First

|

Previous

|

Next

|

Last

]

Font:

Monospaced Font

LISTSERV Archives

LISTSERV Archives

INFOLING Home

INFOLING Home

INFOLING  June 2005

INFOLING June 2005

Subject:

Novedad bibliográfica: ALMELA, R.; CANTOS, P.; SÁNCHEZ, A.; SARMIENTO, R.; ALMELA, M. Frecuencias del español. Diccionario y estudios léxicos y morfológicos. Madrid: Universitas

From:

Carlos Subirats Rüggeberg <[log in to unmask]>

Reply-To:

Carlos Subirats Rüggeberg <[log in to unmask]>

Date:

Fri, 3 Jun 2005 19:26:20 +0200

Content-Type:

text/plain

Parts/Attachments:

Parts/Attachments

text/plain (271 lines)

-------------------------- INFOLING ------------------------------
 Lista de distribución de lingüística del español (ISSN: 1576-3404)
                  http://elies.rediris.es/infoling/
    Envío de información: [log in to unmask]
                             EDITORES:
       Carlos Subirats Rüggeberg, UAB <[log in to unmask]>
           Mar Cruz Piñol, U. Barcelona <[log in to unmask]>
        Eulalia de Bobes Soler, UAB <[log in to unmask]>
 Equipo de edición: http://elies.rediris.es/infoling/editores.html
Estudios de Lingüística del Español (ELiEs): http://elies.rediris.es
es una red temática de lingüística del español asociada a INFOLING.
----------------------------------------------------------------------

Infoling y ELiEs se editan con el patrocinio del Ministerio de
Ciencia y Tecnología de España (DIF2003-10302-E): http://www.mcyt.es

----------------------------------------------------------------------
                        Novedad bibliográfica:
    ALMELA, Ramón; CANTOS, Pascual; SÁNCHEZ, Aquilino; SARMIENTO, Ramón;
ALMELA, Moisés. 2005. Frecuencias del español. Diccionario y estudios
léxicos y morfológicos. Madrid: Universitas. (ISBN: 84-7991-171-9,
591 págs.)

      Web del editor: http://www.universitas.es/default.asp
----------------------------------------------------------------------

                              Resumen:

    Esta obra constituye un diccionario del español más utilizado en la
actualidad. Sus listados de frecuencia están basados en el Corpus
Cumbre, de 20 millones de palabras referidas al español hablado y
escrito actualmente en España y en todos los países de habla hispana.
Las listas de palabras más frecuentes son ya herramientas necesarias
para lingüistas, para autores de manuales y para profesores de español
como lengua materna o como lengua extranjera.

    El retraso tradicional que las ciencias antropológicas han tenido
respecto de las ciencias cosmológicas se observa también en el ámbito de
lo que se puede llamar los métodos cuantitativos. Las ciencias del
lenguaje no son una excepción. Durante siglos se ha venido construyendo
un edificio (inacabado e inacabable) de afinadas y atinadas teorías que
se basan en la indagación del sistema. Esto es y será necesario. Sin
embargo, hasta no hace mucho estos estudios especulativos no estaban
acompañados de una (correspondiente) investigación cuantitativa. Esta
deficiencia está corrigiéndose. La lengua es un organismo vivo. Los
hablantes la hacen y la hacen evolucionar, en cada uno de sus niveles.
Es en el nivel de las palabras en el que la evolución de las lenguas se
hace más patente. Por eso siempre es conveniente conocer el uso real de
las unidades léxicas.

    Este libro ofrece los datos sobre la frecuencia con que los
hispanohablantes usamos actualmente las palabras y los afijos de nuestra
lengua. Viene a llenar un hueco más que evidente. Hasta ahora contábamos
para el español con el diccionario de frecuencias de las palabras del
español preparado por Alphons Juilland y E. Chang Rodríguez. Redactado
en inglés y publicado en 1964, fuera de España, los resultados se
basaron en un corpus de 500.000 palabras procedentes de fuentes no
diversificadas.

    El libro de frecuencias del español, por el contrario, está basado
en el Corpus Cumbre. Este Corpus, de 20 millones de palabras, recoge
fragmentos variados de textos orales y escritos actuales de España e
Hispanoamérica; por el volumen de textos y palabras que contiene y por
sus procedencias, cuidadosamente seleccionadas, puede ser considerado
razonablemente representativo del español actual.

    El libro consta de una sección explicativa y de una sección de
anexos. En la sección explicativa se incluyen una introducción, seis
capítulos, un glosario y la bibliografía. En la sección de anexos se
presentan los datos de frecuencia extraídos del Corpus.

    La Introducción presenta el diseño del Corpus Cumbre, el método
seguido en el trabajo, así como los argumentos que avalan una
investigación de estas características. No les falta razón a los autores
cuando afirman que en el estudio del lenguaje no se puede seguir el
mismo método que se sigue en el estudio de la filosofía o en el análisis
de la reacción subjetiva ante un fenómeno artístico. El lenguaje –dicen‑
«en un porcentaje altísimo, se fundamenta en elementos formales y
claramente objetivables, cuales son, por ejemplo, los sonidos, las
palabras o las formas en general y su ordenación en el discurso. En este
sentido, no habría razón para no adoptar, en los estudios sobre el
lenguaje, métodos de investigación menos especulativos y más
dependientes de los datos que la realidad lingüística nos proporciona.»
La imagen intuitiva que tenemos de la estructura y de la frecuencia del
léxico de nuestra lengua dista mucho a veces de responder a la realidad.
Los datos revelan que la mayor parte de las palabras tienen una
frecuencia baja o muy baja, mientras que son relativamente pocas las que
usan los hablantes con frecuencia muy alta.

    Conviene distinguir entre el uso de las palabras como ‘formas
flexivas’ y de las palabras como ‘lemas’. El Capítulo 1 recoge el uso de
las palabras consideradas como formas individuales, no integradas en la
categoría del lema que les pudiera corresponder. Es interesante conocer
este dato, porque nos permitirá comprobar que no todas las formas de un
lema son objeto de la misma intensidad de uso. Cabe constatar, por
ejemplo, que si bien el verbo tener es frecuentemente usado, la forma
tiene es la más usada de todas sus flexiones. De igual manera la forma
más frecuente del verbo ser es la tercera persona singular del presente
de indicativo (es), como lo es está en relación con el verbo estar. A un
profesor de español como lengua extranjera le debería interesar este
dato para convencerle – si no lo estuviera- que vale la pena aprender
pronto una forma irregular como tiene o es. Y a un lingüista le podría
sugerir alguna idea útil sobre las razones del desdoblamiento vocálico
de la e española, el hecho de que tal desdoblamiento aparece en las
formas más frecuentes y usadas del verbo tener (tiene, tienen, tienes…).
De no menor interés es constatar que las 100 primeras formas
lingüísticas ofrecen un gran contraste de frecuencia: de más de
1.223.000 (de) a 14.965 (poco). Estas distancias en la frecuencia son
notoriamente menores en el resto de la lista.

     El Capítulo 2 aborda el análisis de los lemas. La asignación de
cada forma al lema que le corresponde requiere una revisión manual para
ser fiable. De ahí que el listado de los lemas se haya elaborado a
partir de un subcorpus de Cumbre, de 2 millones de palabras etiquetadas
y revisadas. Dicho subcorpus se recopiló con criterios similares al
corpus general, precisamente para garantizar una razonable
representatividad del español actual. Del análisis de los resultados se
deduce que el número de lemas en español es aproximadamente la mitad que
el número de formas (de ahí que este listado de 5.000 lemas equivalga en
realidad al listado anterior, de 10.000 formas), que el lema más
frecuente es el artículo el (y no la preposición de, primera en la lista
de formas), y que las diferencias en frecuencia son bruscas hasta el
lema número 20 (como), disminuyendo en intensidad al ascender en la lista.

    Con el fin de dar cuenta de la realidad a caballo entre la forma
directamente observable y los aspectos más abstractos de la
funcionalidad y del potencial comunicativo, el libro incluye, en el
Capítulo 3, un análisis de la frecuencia de grupos de formas
categorizadas en función de criterios gramaticales y léxico‑semánticos.
La aplicación del primer criterio se concreta en la preparación de un
listado con los 5.000 lemas más frecuentes del español, ordenados por
frecuencia (Anexo III). Los datos son extraídos del mismo subcorpus, de
2 millones de palabras.

    Junto a los datos descriptivos ya conocidos: (frecuencia Corpus y
frecuencia relativa/millón) se analizan también la banda de frecuencia y
la categoría gramatical (adjetivo, adverbio, conjunción, artículo,
interjección, preposición, pronombre, sustantivo y verbo). En la medida
en que estos 5.000 lemas puedan ser considerados como representativos
del español actual, estos cómputos reflejan que la categoría gramatical
más frecuente es el sustantivo, con casi el 54% sobre el total de los
lemas, seguido a una distancia considerable por el verbo y el adjetivo,
22% y 18%, respectivamente. Se aprecia claramente que los lemas léxicos
(sustantivos, verbos, adjetivos, adverbios e interjecciones) destacan
sobre los lemas funcionales (conjunciones, artículos, preposiciones y
pronombres): 96,92% frente a 3,08%.

    El capítulo se completa con una abstracción de tipo
léxico‑semántico: los distintos usos concretos de cada uno de los lemas
de un grupo escogido se agrupan en acepciones, y éstas se someten a un
análisis cuantitativo. Además, para algunos lemas se incluye un desglose
de la frecuencia de uso de cada acepción por formas del mismo lema. El
estudio parte de los datos del Corpus Cumbre y toma como referencia las
entradas lexicográficas del Gran Diccionario de Uso del Español Actual,
que está basado en el mismo corpus y fue dirigido por uno de los autores
del libro. Las conclusiones apuntan a que el potencial semántico de una
palabra no es indiferente a la frecuencia de uso de sus acepciones, y a
que éstas no tienen por qué relacionarse por igual con todas las formas
flexivas del lema.

    El Capítulo 4 ofrece el primer diccionario de frecuencias de los
afijos del español. Se centra en los sufijos y en los prefijos. Tras la
justificación teórica y la detallada explicación del método seguido, los
autores muestran: la frecuencia de los sufijos y los prefijos del
español por orden alfabético, así como su frecuencia por orden
decreciente de las formas y de los lemas que les sirven de base; por
ejemplo: el sufijo –ión es el primero por cantidad de formas que lo
llevan y –al es el segundo, pero por cantidad de lemas que los llevan
–ión es el segundo y –al es el quinto; en cuanto a los prefijos in‑
afecta a mayor número de formas y des‑ es el décimo, pero des‑ afecta a
más lemas que in‑. Presenta después una sencilla descripción lingüística
de 10 sufijos elegidos entre los 20 más frecuentes, y de los 10 prefijos
más frecuentes. De cada uno de esos 20 afijos se han seleccionado los 30
lemas más frecuentes, con lo cual se alcanza la suma de 600 lexemas:
situación, director, social, importante, verdadero, disponer,
información, encargar, transformar, explicar… Tras haber examinado los
contextos del Corpus Cumbre correspondientes a esos 600 eductos se
extraen los sentidos (o rasgos designativos generales) asignados a cada
uno de los 20 afijos elegidos ‑10 sufijos y 10 prefijos‑; una muestra
limitada de tales contextos acompaña a la explicación de tales sentidos.

    El Capítulo 5 resume los datos referidos a las 1.000 combinaciones
de palabras más frecuentes del español (las 500 combinaciones de dos y
tres palabras más comunes del español). Los datos estadísticos de las
500 combinaciones de dos palabras más frecuentes del español suman una
frecuencia total de casi 3.120.000. Importa destacar que todas estas
combinaciones están catalogadas como muy frecuentes. Se trata, pues, de
estructuras sintagmáticas muy utilizadas por los hablantes del español
(p. ej.: de la, en el, de los, en la, etc.), lexicalizadas o
combinaciones inseparables (p. ej.: creo que, hay que, después de, sin
embargo, a ver, etc.). En cuanto a las combinaciones de tres palabras,
los datos descriptivos arrojan notables diferencias con respecto a sus
homólogas de dos palabras. Se aprecia un descenso muy notable en las
frecuencias con respecto a las combinaciones menos usadas de dos
palabras. Las combinaciones de tres palabras más usadas por los
hablantes tienen casi la misma frecuencia que las menos frecuentes de
dos palabras. Entre las combinaciones de tres palabras más frecuentes
figuran: preposición + artículo + sustantivo (17%; de la vida, en el
caso, por otra parte, etc.), artículo + sustantivo + preposición (11%;
el caso de, una serie de, la mayoría de, etc.) y preposición + artículo
+ pronombre (7%; en el que, a la que, etc.).

    El Capítulo 6 presenta un modelo de análisis de las co‑ocurrencias y
los colocados de una palabra determinada. El objetivo de los autores es
ofrecer un método de trabajo y sugerir nuevos y más eficientes
procedimientos de análisis. Para ello se analizan y contrastan las
co‑ocurrencias y los colocados de los sustantivos mujer y hombre.

    Tras el glosario de términos estadísticos y una bibliografía
elemental, siguen más de 400 páginas con los anexos. La reseña de los
anexos es innecesaria; pero sí destacaremos algunos aspectos
significativos: los anexos 1 y 2 incluyen datos específicos referidos a
la frecuencia absoluta, frecuencia relativa por millón y banda de
frecuencia sobre cada una de las formas y lemas; el anexo 3 incluye
además la categoría gramatical referida a cada lema; los anexos 4 y 5,
centrados en las combinaciones de dos y tres palabras más frecuentes,
contienen las mismos datos que los incluidos en los anexos 1 y 2;
finalmente, los distintos apartados del anexo 6 ofrecen mapas de las
co-ocurrencias y listados de colocaciones de mujer y hombre.

    La relativa novedad de este tipo de estudios hace que todavía no se
hayan puesto de manifiesto los beneficios que pueden aportar en áreas
como la lexicografía, la lexicología, la morfología en general, la
sintaxis o, más específicamente, la enseñanza del español como lengua no
materna. Disponer de una obra de estas características ayudará a
calibrar, con datos objetivos, el peso de una palabra, de una
combinación, de un afijo… Es posible determinar que algunos sentidos que
aparecen en muchos diccionarios apenas tienen relevancia para los
hablantes. O que un adjetivo prefiere una posición anterior cuando
acompaña a un determinado sustantivo, o posterior cuando acompaña a
otro: la combinación persona alta es mucho más frecuente que alta
persona, pero alta personalidad lo es mucho más que personalidad alta.
Incluso para quien busca, por razones estilísticas, la
desautomatización, puede hallar aquellas palabras o combinaciones de
palabras más infrecuentes.

    Creo que hay que dar la bienvenida a este libro, que ofrece tantas
buenas razones cuantitativas para conocer mejor nuestra lengua. Lo que
nos ofrece directamente es la norma (= uso consolidado) del español;
pero no olvidemos que la norma es la cara visible del sistema.



                              Ãndice

Introducción general

Capítulo 1. Las 10.000 formas más frecuentes

Capítulo 2. Los 5.000 lemas más frecuentes

Capítulo 3. Agrupación de los 5.000 lemas más frecuentes por categorías
gramaticales

Capítulo 4. Los afijos

Capítulo 5. Las 1.000 combinaciones de palabras más frecuentes

Capítulo 6. Co-ocurrencias y colocados: un modelo de análisis

Glosario de términos estadísticos utilizados

Bibliografía

Anexos

----------------------------------------------------------------------
Desde la web de Infoling en http://elies.rediris.es/infoling/ puedes
consultar todos los mensajes mandados a la lista desde 1998.
----------------------------------------------------------------------

Top of Message | Previous Page | Permalink

Advanced Options


Options

Log In

Log In

Get Password

Get Password


Search Archives

Search Archives


Subscribe or Unsubscribe

Subscribe or Unsubscribe


Archives

November 2021
October 2021
September 2021
August 2021
July 2021
June 2021
May 2021
April 2021
March 2021
February 2021
January 2021
December 2020
November 2020
October 2020
September 2020
August 2020
July 2020
June 2020
May 2020
April 2020
March 2020
February 2020
January 2020
December 2019
November 2019
October 2019
September 2019
August 2019
July 2019
June 2019
May 2019
April 2019
March 2019
February 2019
January 2019
December 2018
November 2018
October 2018
September 2018
August 2018
July 2018
June 2018
May 2018
April 2018
March 2018
February 2018
January 2018
December 2017
November 2017
October 2017
September 2017
August 2017
July 2017
June 2017
May 2017
April 2017
March 2017
February 2017
January 2017
December 2016
November 2016
October 2016
September 2016
August 2016
July 2016
June 2016
May 2016
April 2016
March 2016
February 2016
January 2016
December 2015
November 2015
October 2015
September 2015
August 2015
July 2015
June 2015
May 2015
April 2015
March 2015
February 2015
January 2015
December 2014
November 2014
October 2014
September 2014
August 2014
July 2014
June 2014
May 2014
April 2014
March 2014
February 2014
January 2014
December 2013
November 2013
October 2013
September 2013
August 2013
July 2013
June 2013
May 2013
April 2013
March 2013
February 2013
January 2013
December 2012
November 2012
October 2012
September 2012
August 2012
July 2012
June 2012
May 2012
April 2012
March 2012
February 2012
January 2012
December 2011
November 2011
October 2011
September 2011
August 2011
July 2011
June 2011
May 2011
April 2011
March 2011
February 2011
January 2011
December 2010
November 2010
October 2010
September 2010
August 2010
July 2010
June 2010
May 2010
April 2010
March 2010
February 2010
January 2010
December 2009
November 2009
October 2009
September 2009
August 2009
July 2009
June 2009
May 2009
April 2009
March 2009
February 2009
January 2009
December 2008
November 2008
October 2008
September 2008
August 2008
July 2008
June 2008
May 2008
April 2008
March 2008
February 2008
January 2008
December 2007
November 2007
October 2007
September 2007
August 2007
July 2007
June 2007
May 2007
April 2007
March 2007
February 2007
January 2007
December 2006
November 2006
October 2006
September 2006
August 2006
July 2006
June 2006
May 2006
April 2006
March 2006
February 2006
January 2006
December 2005
November 2005
October 2005
September 2005
August 2005
July 2005
June 2005
May 2005
April 2005
March 2005
February 2005
January 2005
December 2004
November 2004
October 2004
September 2004
August 2004
July 2004
June 2004
May 2004
April 2004
March 2004
February 2004
January 2004
December 2003
November 2003
October 2003
September 2003
August 2003
July 2003
June 2003
May 2003
April 2003
March 2003
February 2003
January 2003
December 2002
November 2002
October 2002
September 2002
August 2002
July 2002
June 2002
May 2002
April 2002
March 2002
February 2002
January 2002
December 2001
November 2001
October 2001
September 2001
August 2001
July 2001
June 2001
May 2001
April 2001
March 2001
February 2001
January 2001
December 2000
November 2000
October 2000
September 2000
August 2000
July 2000
June 2000
May 2000
April 2000
March 2000
February 2000
January 2000
December 1999
November 1999
October 1999
September 1999
August 1999
July 1999
June 1999
May 1999
April 1999
March 1999
February 1999
January 1999
December 1998
November 1998
October 1998
September 1998
August 1998
July 1998
June 1998
May 1998
April 1998
March 1998
February 1998

ATOM RSS1 RSS2



LISTSERV.REDIRIS.ES

CataList Email List Search Powered by the LISTSERV Email List Manager