El CORPES supera los 445 millones de formas tras incorporar más de siete millones de palabras ortográficas
22 de Diciembre de 2025La Real Academia Española (RAE) ha publicado la versión 1.4 del Corpus del Español del Siglo XXI (CORPES), que ya cuenta con más de 412.000 documentos y 445 millones de formas ortográficas, procedentes tanto de textos escritos como de transcripciones orales. Esta nueva entrega supone un incremento de más de siete millones de formas con respecto a la versión anterior, publicada en julio de 2025.
Además, en este versión, se han actualizado los manuales de codificación de textos escritos y de textos orales, y se ha llevado a cabo una revisión profunda de las coincidencias textuales, proceso que continúa en la actualidad.
Distribución temática y tipológica del corpus
El CORPES mantiene su enfoque equilibrado. En esta versión:
- Más de 112 millones de formas corresponden al bloque de ficción, que incluye novelas, relatos, guiones y obras de teatro.
- Más de 327 millones de formas proceden de textos de no ficción, como libros especializados y publicaciones periódicas relacionadas con ciencias sociales, salud, política, tecnología y cultura.
- Los textos de libros aportan más de 198 millones de formas.
- Las publicaciones periódicas suman cerca de 231 millones de formas.
- Más de 10 millones de formas provienen de contenidos digitales diversos: blogs, entrevistas en línea, redes sociales y textos misceláneos.
Cobertura cronológica y geográfica
En cuanto a la distribución temporal, el corpus refleja el uso del español en las últimas décadas.
Por lustros:
- 2001-2005: casi 104 millones de formas
- 2006-2010: más de 109 millones
- 2011-2015: más de 90 millones
- 2016-2020: más de 79 millones
- 2021-2025: más de 56 millones
En términos geográficos, el CORPES mantiene el equilibrio previsto del 30 % para textos procedentes de España y 70 % para textos de América, con más de 281 millones de formas producidas en el ámbito americano, lo que refuerza su carácter panhispánico y representativo de la diversidad del español actual. Desde sus primeras versiones, el CORPES, además, incorpora textos de Filipinas y de Guinea Ecuatorial.
Una herramienta en continua expansión
Esta nueva versión del CORPES continúa afianzando su papel como recurso esencial para la investigación lingüística y el análisis del uso del español. Su disponibilidad a través del portal de la RAE lo convierte en una herramienta de referencia para lingüistas, traductores, docentes, periodistas y todos aquellos interesados en el estudio del español contemporáneo.