Ordalie
Solon Embeddings 0.1
Baudouin Arbarétier
Baudouin Arbarétier

Solon Embeddings 0.1

Solon Embeddings 0.1 est un modèle d'embedding français open source sous licence MIT, entraîné par Ordalie. Solon large est le meilleur modèle open source d'embedding en français connu à ce jour, atteignant les scores les plus élevés sur les benchmarks publics.

📍 Disponible sur HuggingFace en deux versions :

  • Base : 268M paramètres, 768 dimensions
  • Large : 560M paramètres, 1024 dimensions

TL;DR

  • Performance globale mesurée sur 9 benchmarks : 6 de la collection MTEB, 1 de Miracl, et 2 développés par Ordalie.
  • Benchmarks personnalisés :
    • Ordalie-FR-STS-benchmark (10k) : évaluation des similarités entre deux phrases.
    • Ordalie-FR-Reranking-benchmark (2k) : association de requêtes courtes à des passages longs.
  • Entraînement supervisé sur des données françaises et anglaises, avec des stratégies avancées de "hard negatives".

Performance & Benchmarks

Méthodologie

Les performances ont été évaluées à l’aide de :

  1. MTEB (arXiv)
    1. 6 datasets en français.
  2. Miracl (arXiv)
    1. Subset français.
  3. Benchmarks personnalisés Ordalie :
    1. FR-STS Benchmark.
    2. FR-Reranking Benchmark.

💡 Benchmarks disponibles sur GitHub (fork MTEB) pour reproduire les résultats.

Résultats

Solon Large dépasse en moyenne les autres modèles open source pour les tâches de similarité et de recherche en langue française.

Détails Techniques

Architecture

  • Multilingue : 90% français, 10% anglais.
  • Basé sur xlm-roberta/e5 de Microsoft avec un pré-entraînement contrastif massif.

Entraînement

  1. Phase 1 : recalibrage multilingue
    1. Données : 36M phrases françaises, 4M anglaises.
    2. Hardware : Nvidia A100 80GB.
    3. Durée : ~24h à 26h.
  2. Phase 2 : optimisation ciblée
    1. Données : 60k paires semi-synthétiques avec "hard negatives".
    2. Hardware : Nvidia A100 80GB.
    3. Durée : 1h à 2h.

Conclusions et Perspectives

  • Objectif atteint : meilleur score en similarité textuelle française avec des moyens limités.
  • Création de nouveaux benchmarks français pour évaluation.

🚀 Futures améliorations :

  • Augmenter la taille de contexte (actuellement limitée à 512 tokens).
  • Renforcer les capacités multilingues.

Rejoignez-nous

📧 Intéressé(e) par le projet ou les recrutements chez Ordalie ? Contactez-nous à [email protected].