LightOn démontre la flexibilité de son modèle OCR
... en l'adaptant à l'arabe grâce à un entraînement ciblé
LightOn démontre la flexibilité de LightOnOCR-2, son modèle de compréhension de documents, en l'adaptant à l'arabe grâce à un paramétrage fin. Cette extension repose sur un pipeline interne de génération de données synthétiques conçu pour couvrir les langues encore sous-représentées dans les outils OCR actuellement disponibles sur le marché.
Cette démonstration s'appuie sur un ensemble de données comprenant 12.000 pages synthétiques et leurs transcriptions de référence, produites à l'aide d'une version modifiée du générateur de documents synthétiques de LightOn.
Le corpus couvre un large éventail de scénarios documentaires, incluant des artefacts de numérisation, des variations de police, des niveaux de résolution et des types de documents. Le format de sortie reste celui utilisé pour entraîner la variante bbox de LightOnOCR-2, avec une détection de boîtes englobantes qui associe le texte à son emplacement spatial.
Défis spécifiques
L'application de l'OCR à l'arabe présente des défis spécifiques. L'écriture arabe se lit de droite à gauche, les caractères sont liés en cursive et les jeux de données ouverts, comme les modèles spécialisés, restent moins accessibles que pour les langues latines. Pour les organisations traitant des archives, des documents administratifs, juridiques ou patrimoniaux en arabe, ces limitations peuvent ralentir l'automatisation des flux de travail documentaires.
Cette démonstration s'inscrit dans un effort plus vaste visant à étendre le modèle à divers domaines, comme en témoignent ses plus de 3 millions de téléchargements et les améliorations déjà apportées par la communauté. Elle répond notamment aux besoins rencontrés au Moyen-Orient, où LightOn collabore déjà avec des organisations des secteurs public et privé. Ce développement est cohérent avec le positionnement de LightOn : fournir des modules d'IA générative de niveau entreprise, ouverts, contrôlables et adaptés aux environnements sensibles.
LightOn met à disposition sur sa plateforme Hugging Face les guides nécessaires à la reproduction de ces améliorations, afin de rendre cette approche accessible au plus grand nombre et adaptable à d'autres contextes documentaires.
LightOnOCR-2 est distribué en open source sous licence Apache 2.0. Il joue un rôle central dans le processus d'ingestion de documents en production au sein de LightOn Console, l'offre en libre-service de LightOn.
Le modèle open source et notre moteur de production reposent donc sur la même plateforme technologique. Le modèle de base obtient un score de 83,2 % sur OlmOCR-Bench.
Les informations et conseils rédigés par la rédaction de Boursier.com sont réalisés à partir des meilleures sources, même si la société Boursier.com ne peut en garantir l'exhaustivité ni la fiabilité. Ces contenus n'ont aucune valeur contractuelle et ne constituent en aucun cas une offre de vente ou une sollicitation d'achat de valeurs mobilières ou d'instruments financiers. La responsabilité de la société Boursier.com et/ou de ses dirigeants et salariés ne saurait être engagée en cas d'erreur, d'omission ou d'investissement inopportun.
- 0 vote
- 0 vote
- 0 vote
- 0 vote
- 0 vote