El corpus de texto constituye un elemento esencial dentro del análisis y exploración de la información existente, dado que permite asignar palabras claves y metadatos a la misma, haciendo que su búsqueda sea efectiva a la hora de requerir algo específico.
Bajo esta perspectiva, según Eagles, el corpus es una recopilación de muestras lingüísticas, seleccionadas de acuerdo a una serie de criterios para crear una muestra representativa de la lengua.
En la actualidad se puede realizar análisis de corpus de texto no solamente a los documentos contenidos en colecciones personalizadas sino a la web, así pues en el caso de las colecciones existe software como Tenkatext, WordLister, Concordance, MonoConc Pro, Collocate, ParaConc, Concorder Pro, Antcore, entre otros y para la web Web Corp Live.
Ahora bien, la pregunta es ¿cómo realizar un análisis de corpus de texto que realmente responda a las necesidades?, ante esta inquietud el Centro de Análisis Informático de Textos de la Universidad Complutense de Madrid aclara que lo esencial es el objeto de estudio que se tenga y por ende la pregunta de investigación que se desea responder, pues los criterios de selección son múltiples y las opciones que ofrece cada software varían.
PÉREZ,H.,Chantal M. Explotación de los córpora textuales informatizados para la creación de bases de datos terminológicas basadas en el conocimiento(en línea). En Estudios de Linguística del Español, Vol. 18,2002. Disponible en: http://elies.rediris.es/elies18/43.html
Centro de Análisis Informático de Textos. ¿QUÉ ES UN CORPUS TEXTUAL Y CÓMO SE CONSTRUYE? (en línea). España: Universidad Complutense de Madrid. Disponible en: http://www.ucm.es/info/cait/ejemplos.html