corpes

Versión 1.3 del Corpus del Español del Siglo XXI (CORPES)

El CORPES alcanza los 438 millones de formas tras incorporar más de 15 000 textos y 13 millones de palabras ortográficas

22 de Julio de 2025

La Real Academia Española (RAE) ha publicado la versión 1.3 del Corpus del Español del Siglo XXI (CORPES), que ya cuenta con más de 405 000 documentos y 438 millones de formas ortográficas, procedentes tanto de textos escritos como de transcripciones orales. Esta nueva entrega supone un incremento de más de 13 millones de formas con respecto a la versión anterior, publicada en noviembre de 2024.

Una de las mejoras más importantes de esta actualización es la revisión de los metadatos correspondientes a los textos orales, que suponen ahora más de cinco millones de palabras ortográficas. Esta revisión ha permitido optimizar la calidad de la información existente. Además, algunos archivos ofrecen el sonido alineado correspondiente a la transcripción; en otros es posible la descarga del archivo de audio, además de la visualización del vídeo de acuerdo con la procedencia del texto fuente.

Distribución temática y tipológica del corpus

El CORPES mantiene su enfoque equilibrado. En esta versión:

  • Más de 112 millones de formas corresponden al bloque de ficción, que incluye novelas, relatos, guiones y obras de teatro.
  • Más de 312 millones de formas proceden de textos de no ficción, como libros especializados y publicaciones periódicas relacionadas con ciencias sociales, salud, política, tecnología y cultura.
  • Los textos de libros aportan más de 197 millones de formas.
  • Las publicaciones periódicas suman cerca de 226 millones de formas.
  • Más de 10 millones de formas provienen de contenidos digitales diversos: blogs, entrevistas en línea, redes sociales y textos misceláneos.

Cobertura cronológica y geográfica

En cuanto a la distribución temporal, el corpus refleja el uso del español en las últimas décadas.

Por lustros:

En términos geográficos, el CORPES mantiene el equilibrio previsto del 30 % para textos procedentes de España y 70 % para textos de América, con más de 281 millones de formas producidas en el ámbito americano, lo que refuerza su carácter panhispánico y representativo de la diversidad del español actual. Desde sus primeras versiones, el CORPES, además, incorpora textos de Filipinas y de Guinea Ecuatorial.

Una herramienta en continua expansión

Esta nueva versión del CORPES continúa afianzando su papel como recurso esencial para la investigación lingüística y el análisis del uso del español. Su disponibilidad a través del portal de la RAE lo convierte en una herramienta de referencia para lingüistas, traductores, docentes, periodistas y todos aquellos interesados en el estudio del español contemporáneo.

cerrar

Buscador general ASALE

cerrar

Diccionarios