tecla

La nueva actualización de CORPES alcanza los 350 millones de formas ortográficas

20 de Septiembre de 2021

El Corpus del Español del Siglo XXI (CORPES XXI), corpus de referencia de la Real Academia Española (RAE), ha llegado a la versión 0.94, publicada en el mes de julio de 2021. Esta última actualización cuenta con más de 327 000 documentos que suman ya unos 350 millones de formas ortográficas, procedentes de textos escritos y de transcripciones orales. Con respecto a la versión anterior supone un incremento de unos 18 millones de formas.

Casi cinco millones de estas formas proceden de textos orales y algunos archivos ofrecen el sonido alineado correspondiente a la transcripción; en otros es posible la descarga del archivo de audio, además de la visualización del vídeo de acuerdo con la procedencia del texto fuente.

Por lo que respecta al bloque de ficción (novelas, guiones de cine, relatos, obras de teatro) las formas de CORPES sobrepasan los 95 millones, mientras que las contenidas en textos de libros de no ficción y en publicaciones periódicas (ciencias sociales, salud, política, artes, tecnología...) se acercan a los 250 millones. Los textos procedentes de libros suponen casi 172 millones de formas; las publicaciones periódicas están representadas con unos 167 millones. Seis millones y medio más provienen de blogs, entrevistas digitales y miscelánea.

En cuanto a la distribución temporal, aumenta el número de textos producidos entre 2016-2020, con algo más de 51 millones de formas, y se añaden ya textos producidos en 2021, más de un millón de formas. Por lustros, el mayor peso recae actualmente en el segmento 2006-2010, con más de 107 millones de formas; más de 102 millones corresponden a formas producidas entre 2001 y 2005, y el comprendido entre 2011 y 2015 alcanza los 82 millones de formas.

El equilibro previsto entre España y América (30 %-70 %) se mantiene: las formas producidas en textos clasificados como España suponen algo más del 30 % y los de América superan los 250 millones de formas.

Herramienta fundamental en la lingüística

El Corpus del Español del Siglo XXI (CORPES XXI) es, al igual que el CREA, un corpus de referencia. En lingüística, se llama corpus a un conjunto lo más extenso y ordenado posible de textos. Los corpus son empleados habitualmente para conocer el contexto y las propiedades de las palabras, expresiones y construcciones a partir de los usos reales registrados. Dado el tamaño que poseen, los corpus tienen que estar en formato electrónico.

Un corpus general (llamado de referencia) tiene como propósito básico el de servir para obtener las características globales que presenta una lengua en un momento determinado de su historia. En el caso del español actual, el corpus debe contener textos de todos los tipos y también de todos los países que constituyen el mundo hispánico.

cerrar

Buscador general ASALE