| Language | Spacy model in AVOBMAT | Lemmatization (Spacy) | Lemmatization (Lemmagen) | Named entity recognition | Named entity linking & disambiguation | Parts of speech tagging | ||||
| Small | Medium | Large | Transformer | |||||||
| Currently supported spaCy model languages | Catalan | ✅ | ✅ | ✅ | ✅ | ✅ | ||||
| Chinese (Mandarin) | ✅ | ✅ | ✅ | Coming soon | Coming soon | ✅ | ||||
| Croatian | ✅ | ✅ | ✅ | ✅ | ✅ | |||||
| Danish | ✅ | ✅ | ✅ | ✅ | ✅ | |||||
| Dutch | ✅ | ✅ | ✅ | ✅ | ✅ | |||||
| English | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | |||
| Finnish | ✅ | ✅ | ✅ | ✅ | ✅ | |||||
| French | ✅ | ✅ | ✅ | ✅ | ✅ | |||||
| German | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ||||
| Greek | ✅ | ✅ | ✅ | ✅ | ||||||
| Italian | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ||||
| Japanese | ✅ | ✅ | ✅ | Coming soon | Coming soon | |||||
| Korean | ✅ | ✅ | ✅ | Coming soon | ✅ | |||||
| Lithuanian | ✅ | ✅ | ✅ | ✅ | ✅ | |||||
| Macedonian | ✅ | ✅ | ✅ | ✅ | ||||||
| Multilanguage | ✅ | ✅ | ||||||||
| Norwegian | ✅ | ✅ | ✅ | Coming soon | ||||||
| Polish | ✅ | ✅ | ✅ | ✅ | ✅ | |||||
| Portuguese | ✅ | ✅ | ✅ | ✅ | ✅ | |||||
| Romanian | ✅ | ✅ | ✅ | ✅ | ✅ | |||||
| Russian | ✅ | ✅ | ✅ | ✅ | ✅ | |||||
| Slovenian | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ||||
| Spanish | ✅ | ✅ | ✅ | ✅ | ✅ | |||||
| Swedish | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ||||
| Ukranian | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ||||
| Hungarian | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ||||
| Current Lemmagen support | Slovenian | ✅ | ||||||||
| Serbian | ✅ | |||||||||
| Romanian | ✅ | |||||||||
| Czech | ✅ | |||||||||
| Bulgarian | ✅ | |||||||||
| Estonian | ✅ | |||||||||
| Detected languages | Afrikaans | |||||||||
| Albanian | ||||||||||
| Amharic | ||||||||||
| Ancient Greek | ||||||||||
| Arabic | ||||||||||
| Armenian | ||||||||||
| Azerbaijani | ||||||||||
| Basque | ||||||||||
| Bengali | ||||||||||
| Bulgarian | ||||||||||
| Czech | ||||||||||
| Estonian | ||||||||||
| Faroese | ||||||||||
| Gujarati | ||||||||||
| Hebrew | ||||||||||
| Hindi | ||||||||||
| Icelandic | ||||||||||
| Indonesian | ||||||||||
| Irish | ||||||||||
| Kannada | ||||||||||
| Kyrgyz | ||||||||||
| Latin | ||||||||||
| Latvian | ||||||||||
| Ligurian | ||||||||||
| Lower Sorbian | ||||||||||
| Luganda | ||||||||||
| Luxembourgish | ||||||||||
| Malay | ||||||||||
| Malayalam | ||||||||||
| Marathi | ||||||||||
| Nepali | ||||||||||
| Norwegian Nynorsk | ||||||||||
| Persian | ||||||||||
| Sanskrit | ||||||||||
| Serbian | ||||||||||
| Setswana | ||||||||||
| Sinhala | ||||||||||
| Slovak | ||||||||||
| Tagalog | ||||||||||
| Tamil | ||||||||||
| Tatar | ||||||||||
| Telugu | ||||||||||
| Thai | ||||||||||
| Tigrinya | ||||||||||
| Turkish | ||||||||||
| Upper Sorbian | ||||||||||
| Urdu | ||||||||||
| Vietnamese | ||||||||||
| Yoruba | ||||||||||
*AVOBMAT can identify the language of texts in 52 languages before further processing. Learn more>