A Large Spanish-Catalan Parallel Corpus Release for Machine Translation

Marta R. Costa-Jussa

TALP Research Center
Universitat Politecnica de Catalunya
Jose A. R. Fonollosa

TALP Research Center
Universitat Politecnica de Catalunya
Jose B. Marino

TALP Research Center
Universitat Politecnica de Catalunya
Marc Poch

Institut Universitari de Linguistica Aplicada (IULA)
Universitat Pompeu Fabra
Mireia Farrus

N-RAS Research Center
Universitat Pompeu Fabra

A Large Spanish-Catalan Parallel Corpus Release for Machine Translation

keywords: Catalan-Spanish parallel corpus, machine translation

We present a large Spanish-Catalan parallel corpus extracted from ten years of the paper edition of a bilingual Catalan newspaper. The produced corpus of 7.5 M parallel sentences (around 180 M words per language) is useful for many natural language applications. We report excellent results when building a statistical machine translation system trained on this parallel corpus. The Spanish-Catalan corpus is partially available via ELDA (Evaluations and Language Resources Distribution Agency) in catalog number ELRA-W0053.

reference: Vol. 33, 2014, No. 4, pp. 907–920

Computing and Informatics

formerly Computers and Artificial Intelligence

A Large Spanish-Catalan Parallel Corpus Release for Machine Translation