Asociación de Academias de la Lengua Española

   

Versión beta

El CORPES XXI se actualiza con la incorporación de 21 millones de nuevas formas ortográficas

CORPES XXI

CORPES XXI

15.2.2021

El CORPES XXI se actualiza con la incorporación de 21 millones de nuevas formas ortográficas

  • Ya está disponible la versión 0.93 del Corpus del Español del Siglo XXI (CORPES XXI), con más de 316 000 documentos para su consulta en línea.
  • Cuenta con más de 333 millones de formas ortográficas, procedentes de textos escritos y de transcripciones de textos orales.
  • El proyecto, dirigido por el académico Guillermo Rojo, constituye una base de datos fundamental para el estudio de la lengua española en la actualidad.
  • Acceda al CORPES XXI a través de este enlace.

La Real Academia Española (RAE), en colaboración con la Asociación de Academias de la Lengua Española (ASALE), presenta una nueva actualización del Corpus del Español del Siglo XXI (CORPES XXI). La más reciente versión de la herramienta, la 0.93, cuenta con más de 316000 documentos, que suman algo más de 333 millones de formas ortográficas, procedentes de textos escritos y de transcripciones de textos orales. Con respecto a la versión anterior, publicada en mayo de 2020, supone un incremento de más de 21 millones de formas.

NOVEDADES DE LA VERSIÓN 0.93

Más de cuatro millones y medio de las formas incorporadas en esta actualización son transcripciones de textos orales (programas de radio y televisión, entrevistas en medios de comunicación, YouTube, etc.). Algunos archivos ofrecen el sonido alineado correspondiente a la transcripción; en otros es posible la descarga del archivo de audio, además de la visualización del vídeo, de acuerdo con la procedencia del texto fuente.

Por lo que respecta al bloque de ficción (novelas, guiones de cine, relatos, obras de teatro), las formas de CORPES sobrepasan los 93 millones, mientras que las contenidas en textos de libros de no ficción y en publicaciones periódicas (ciencias sociales, salud, política, artes, tecnología…) se acercan a los 238 millones. Los textos procedentes de libros suponen casi 166 millones de formas; las publicaciones periódicas están representadas con unos 158 millones. Seis millones y medio más provienen de blogs, entrevistas digitales, redes sociales y miscelánea.

 En cuanto a la distribución temporal, aumenta el número de textos producidos entre 2016 y 2020, con algo más de 42 millones de formas en esta versión. Por lustros, el mayor peso en esta versión, todavía provisional, recae en el segmento 2006-2010, con más de 107 millones de formas; más de 100 millones corresponden a formas producidas entre 2001 y 2005; y, de 2011 a 2015, alcanza casi 82 millones de formas. El equilibrio previsto entre España y América (30 %-70 %) se mantiene: las formas correspondientes a textos generados en España suponen algo más del 30 % y los de América superan los 217 millones de formas. Además, el CORPES contiene textos procedentes de Filipinas y Guinea Ecuatorial.

HERRAMIENTA FUNDAMENTAL DE LA LINGÜÍSTICA

El Corpus del Español del Siglo XXI (CORPES XXI) es, al igual que el CREA, un corpus de referencia. En lingüística, se llama corpus a un conjunto lo más extenso y ordenado posible de textos. Los corpus son empleados habitualmente para conocer el contexto y las propiedades de las palabras, expresiones y construcciones a partir de los usos reales registrados. Dado el tamaño que poseen, los corpus tienen que estar en formato electrónico.

Un corpus general (llamado de referencia) tiene como propósito básico el de servir para obtener las características globales que presenta una lengua en un momento determinado de su historia. En el caso del español actual, el corpus debe contener textos de todos los tipos y también de todos los países que constituyen el mundo hispánico.

Más información

Diccionarios

31.5.2021

Especialista en literatura peruana y española, falleció el pasado 30 de marzo de 2021.

Ramón González Paredes, miembro de la Academia Venezolana de la Lengua
21.5.2021

El narrador, dramaturgo, poeta y ensayista venezolano, falleció el pasado 19 de mayo en la ciudad de Caracas a los 95 años.

Francisco Brines, miembro de la Real Academia Española
21.5.2021

El escritor español falleció ayer, 20 de mayo de 2021, en el hospital Francesc de Borja de Gandía (Valencia) a los 89 años.

José Mármol, nuevo miembro de la ADL
19.5.2021

Fue elegido con el voto mayoritario de los miembros de la ADL en la sesión eleccionaria celebrada el pasado 13 de mayo.

Tuits de @ASALEinforma

Formulario de búsqueda