Rozsáhlá kolekce digitalizovaných textů přirozeného jazyka sloužící k lingvistickému výzkumu. Texty jsou přebírány z přirozeného
publikačního prostředí nebo vznikají přepisem záznamů řeči; doplňuje je bibliografický, strukturní a lexikální popis (lingvistické
značkování), umožňující vyhledávání a zpracování (např. frekvenční analýzu) prostřednictvím speciálního programového vybavení.
Rozlišují se korpusy obecné a speciální; synchronní (zachycují současný jazyk) a diachronní (zachycují jazyk za delší historické
období); korpusy mluveného a psaného jazyka; korpusy jednojazyčné a paralelní (texty ve více jazykových verzích).
[ČNK-2002:nestr.]
[ŠULC-1999:9-13]