Asociación de Academias de la Lengua Española

   

Versión beta

Nueva actualización del Corpus del Español del Siglo XXI (CORPES XXI)

El CORPES XXI es un proyecto panhispánico

El CORPES XXI es un proyecto panhispánico

27.12.2018

Nueva actualización del Corpus del Español del Siglo XXI (CORPES XXI)

La Real Academia Española (RAE) y la Asociación de Academias de la Lengua Española (ASALE) publican una nueva actualización del Corpus del Español del Siglo XXI (CORPES XXI), la versión 0.91, disponible gratuitamente en el portal web académico gracias al apoyo del Santander.

Dirigido por el académico Guillermo Rojo, el CORPES XXI cuenta en la actualidad con más de 285 000 documentos que suman alrededor de 286 millones de formas, procedentes de textos escritos y de transcripciones de textos orales. Con respecto a la versión anterior, publicada en julio de 2018, supone un incremento de 10 millones de formas. Aproximadamente cuatro millones están constituidos por textos orales y se ofrece, en una parte de ellos, el sonido alineado correspondiente a la transcripción. Además, en bastantes casos es posible la descarga del archivo de audio o la visualización del vídeo del documento fuente.

Los textos procedentes de libros suponen más de 140 millones de formas. Por lo que respecta al bloque de ficción (novelas, guiones, relatos, obras de teatro) las formas del CORPES XXI sobrepasan los 81 millones, mientras que las contenidas en textos de no ficción (ciencias sociales, salud, política, artes, tecnología…) se acercan a los 207 millones.

Por otro lado, la prensa está representada con aproximadamente 142 millones de formas. Cinco millones más provienen de blogs, entrevistas digitales y miscelánea.

EL CORPES XXI

El CORPES XXI es un corpus de referencia. En lingüística, se llama corpus a un conjunto formado por miles o cientos de miles de textos (novelas, obras de teatro, guiones de cine, noticias de prensa, ensayos, transcripciones de noticiarios radiofónicos o televisivos, transcripciones de conversaciones, discursos, etc.) y cientos o miles de millones de formas. Son empleados habitualmente para conocer el significado y características de palabras, expresiones y construcciones a partir de los usos reales registrados. Dado el tamaño que poseen, los corpus tienen que estar en formato electrónico.

Un corpus general (llamado de referencia) tiene como propósito básico el de servir para obtener las características globales que presenta una lengua en un momento determinado de su historia. En el caso del español actual, el corpus debe contener textos de todos los tipos y también de todos los países que constituyen el mundo hispánico.

Para ello, los textos que integran el CORPES se seleccionan de acuerdo con una serie de parámetros y son tratados con un sistema de codificación especialmente diseñado para este corpus y para la recuperación de sus datos desde cualquiera de esos parámetros.

Para continuar y desarrollar las líneas seguidas anteriormente, en el congreso celebrado en Medellín en marzo de 2007, las academias de la lengua española acordaron encomendar a la Real Academia Española la construcción del Corpus del Español del Siglo XXI (CORPES XXI), formado por textos escritos y orales procedentes de España, América, Filipinas y Guinea Ecuatorial.

Diccionarios

Eduardo Santa, miembro de la Academia Colombiana de la Lengua
4.5.2020

Escritor, historiador, profesor y miembro de número y honorario de la Academia Colombiana de la Lengua, falleció el pasado 2 de mayo de 2020 en la ciudad de Bogotá (Colombia) a los 93 años de edad. 

Manuel Durán acompañado por Rolena Adorno y Roberto González Echevarría
30.4.2020

Insigne estudioso, célebre poeta y miembro correspondiente de la Academia Norteamericana de la Lengua Española (ANLE), falleció el pasado 17 de abril de 2020 a los 95 años de edad en New Haven (Connecticut).

Liliana Weinberg, miembro de la Academia Mexicana de la Lengua
27.4.2020

Durante la primera sesión plenaria virtual de la Academia Mexicana de la Lengua, celebrada el jueves 23 de abril de 2020, se eligió a la ensayista y crítica literaria Liliana Weinberg como séptima ocupante de la silla X. 

Maximino Fernández Fraile, miembro de la Academia Chilena de la Lengua
27.4.2020

Nacido en Chile, fue elegido miembro de la Academia Chilena de la Lengua el 3 de diciembre de 2007. Tomó posesión el 18 de agosto de 2008 con el discurso titulado El tema religioso en tres poetas chilenos de hoy.

Día Internacional del Libro
23.4.2020

La idea es compartir y recomendar, entre toda nuestra comunidad, algunas de las obras literarias y los autores en lengua española más relevantes con el fin de evadirnos, a través de la lectura, en estos momentos tan complicados que estamos viviendo.

César López Núñez, miembro de la Academia Cubana de la Lengua
8.4.2020

Nacido en Santiago de Cuba en 1933, tomó posesión como miembro de número de la Academia Cubana de la Lengua (silla L) el 19 de diciembre de 1996. 

Matías Rafide, miembro de la Academia Chilena de la Lengua
2.4.2020

Nacido el 5 de noviembre de 1929 en Curepto (Chile), fue miembro de número de la Academia Chilena de la Lengua y miembro correspondiente de la Real Academia Española (RAE) y de la Academia Norteamericana de la Lengua Española (ANLE). 

Doctor José Félix Patiño Restrepo
1.4.2020

Tomó posesión como miembro de número de la Academia Colombiana de la Lengua (silla O) el 19 de marzo de 2009 con la lectura del discurso titulado Lenguaje médico.

Tuits de @ASALEinforma

Formulario de búsqueda