Selon la surveillance 1M AI News, Microsoft a publié en open source, sur Hugging Face, une famille de modèles d’embeddings de texte multilingues nommée harrier-oss-v1, comprenant trois gammes : 270M, 0,6B et 27B. La fiche du modèle indique que cette série utilise une architecture de type decoder-only, un last-token pooling et une normalisation L2 ; elle supporte jusqu’à 32768 tokens et peut être utilisée pour la recherche (retrieval), le clustering, la similarité sémantique, la classification, l’extraction bilingue et le réordonnancement (re-ranking).
Multilingual MTEB v2 est un benchmark d’embeddings de texte multilingues couramment utilisé dans l’industrie ; il teste principalement des tâches telles que la recherche, la classification, le clustering et la similarité sémantique. La fiche du modèle Microsoft indique que, sur ce benchmark, les scores des trois gammes sont respectivement de 66,5, 69,0 et 74,3, et que la version 27B a pris la première place le jour de sa publication. Les versions 270M et 0,6B utilisent également en plus un modèle d’embedding plus grand pour procéder à une distillation de connaissances ; les trois modèles sont publiés sous licence MIT.