Language | Spacy model in AVOBMAT | Lemmatization (Spacy) | Lemmatization (Lemmagen) | Named entity recognition | Named entity linking & disambiguation | Parts of speech tagging | ||||
Small | Medium | Large | Transformer | |||||||
Currently supported spaCy models languages | Catalan | ✅ | ✅ | ✅ | ✅ | ✅ | ||||
Chinese | ✅ | ✅ | ✅ | ✅ | Coming soon | ✅ | ||||
Croatian | ✅ | ✅ | ✅ | ✅ | ✅ | |||||
Danish | ✅ | ✅ | ✅ | ✅ | ✅ | |||||
Dutch | ✅ | ✅ | ✅ | ✅ | ✅ | |||||
English | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | |||
Finnish | ✅ | ✅ | ✅ | ✅ | ✅ | |||||
French | ✅ | ✅ | ✅ | ✅ | ✅ | |||||
German | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ||||
Greek | ✅ | ✅ | ✅ | ✅ | ||||||
Italian | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ||||
Japanese | ✅ | ✅ | ✅ | ✅ | Coming soon | |||||
Korean | ✅ | ✅ | ✅ | ✅ | ✅ | |||||
Lithuanian | ✅ | ✅ | ✅ | ✅ | ✅ | |||||
Macedonian | ✅ | ✅ | ✅ | ✅ | ||||||
Multilanguage | ✅ | ✅ | ||||||||
Norwegian | ✅ | ✅ | ✅ | ✅ | ||||||
Polish | ✅ | ✅ | ✅ | ✅ | ✅ | |||||
Portuguese | ✅ | ✅ | ✅ | ✅ | ✅ | |||||
Romanian | ✅ | ✅ | ✅ | ✅ | ✅ | |||||
Russian | ✅ | ✅ | ✅ | ✅ | ✅ | |||||
Slovenian | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ||||
Spanish | ✅ | ✅ | ✅ | ✅ | ✅ | |||||
Swedish | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ||||
Ukranian | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ||||
Hungarian | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ||||
SpaCy models to be added soon | Afrikaans | |||||||||
Albanian | ||||||||||
Amharic | ||||||||||
Ancient Greek | ||||||||||
Arabic | ||||||||||
Armenian | ||||||||||
Azerbaijani | ||||||||||
Basque | ||||||||||
Bengali | ||||||||||
Bulgarian | ||||||||||
Czech | ||||||||||
Estonian | ||||||||||
Faroese | ||||||||||
Gujarati | ||||||||||
Hebrew | ||||||||||
Hindi | ||||||||||
Icelandic | ||||||||||
Indonesian | ||||||||||
Irish | ||||||||||
Kannada | ||||||||||
Kyrgyz | ||||||||||
Latin | ||||||||||
Latvian | ||||||||||
Ligurian | ||||||||||
Lower Sorbian | ||||||||||
Luganda | ||||||||||
Luxembourgish | ||||||||||
Malay | ||||||||||
Malayalam | ||||||||||
Marathi | ||||||||||
Nepali | ||||||||||
Norwegian Nynorsk | ||||||||||
Persian | ||||||||||
Sanskrit | ||||||||||
Serbian | ||||||||||
Setswana | ||||||||||
Sinhala | ||||||||||
Slovak | ||||||||||
Tagalog | ||||||||||
Tamil | ||||||||||
Tatar | ||||||||||
Telugu | ||||||||||
Thai | ||||||||||
Tigrinya | ||||||||||
Turkish | ||||||||||
Upper Sorbian | ||||||||||
Urdu | ||||||||||
Vietnamese | ||||||||||
Yoruba | ||||||||||
Current Lemmagen support | Slovenian | ✅ | ||||||||
Serbian | ✅ | |||||||||
Italian | Coming soon | |||||||||
Romanian | ✅ | |||||||||
Czech | ✅ | |||||||||
Bulgarian | ✅ | |||||||||
Estonian | ✅ |
*AVOBMAT can identify the language of texts in 52 languages before further processing. Learn more>