Pour mesurer la performance globale de Solon, nous avons eu recours à 9 benchmarks.
Premièrement, l'illustre projet MTEB (arxiv) qui propose pas moins de 6 sets en français. Nous avons également utilisé
le subset français du benchmark multilingue Miracl (arxiv).
Enfin, nous proposons également deux nouvelles datasets françaises de benchmark :
Nous avons compilé l'ensemble du benchmark dans un fork de MTEB si vous souhaitez reproduire nos résultats ou évaluer vos propres modèles.
Grâce à ses deux phases d'entraînement, Solon large sur-performe en moyenne les autres modèles sur les tâches de similarité & recherche en langue française des benchmarks mentionnés.
Solon Embeddings 0.1 est un modèle d'embedding multilingue entrainé sur du français (90%) et de l'anglais (10%). Il est aujourd'hui basé sur le modèle xlm-roberta/e5 de Microsoft, bénéficiant ainsi du pré-entraînement contrastif(arxiv) massif & coûteux de ce dernier.
Les versions { base, large } ont été réentraînées sur deux phases supervisées successives :
La bonne performance de Solon sur les benchmarks s'explique d'abord par la qualité des échantillons utilisés pour la deuxième phase d'entraînement - nous avons opté pour des paires semi-synthétiques associant un passage tiré de grands corpus de textes à un second passage généré par un LLM.
Deuxièmement, la séléction des paires négatives dites "hard negatives" est cruciale. Pour optimiser leur création, nous avons opté pour un ensemble de stratégies mêlant BM25 et Dense Passage Retrieval (DPR)(arxiv).
L'objectif de ce projet était principalement d'atteindre le score le plus élevé sur un objectif de similarité textuelle en français. Il a été réalisé avec un budget limité imposant certaines concessions.
Une des grandes difficultés de ce projet a été de trouver des datasets de qualité pour évaluer les performances de Solon. Nous avons donc créé deux nouveaux benchmarks français mais si vous souhaitez contribuer à l'amélioration des benchmarks français, n'hésitez pas à nous contacter.
De nouvelles itérations de Solon seront prévues à l'avenir, notamment pour améliorer les capacités multilingues de ce dernier. Nous travaillons également à augmenter la taille de contexte du modèle, qui est aujourd'hui limitée à 512 tokens.
Enfin, nous prévoyons de multiples recrutements pour renforcer les équipes d'Ordalie. Si
vous êtes intéressé(e) par le projet, n'hésitez pas à nous contacter, nous serions ravis
d'en discuter avec vous.
- Baudouin