Ce projet vise à transformer des documents non structurés (factures, cartes d'identité, etc.) en données structurées. L'enjeu était de dépasser les limites de l'OCR classique en intégrant une compréhension sémantique via un modèle Llama 4 Vision
02. Architecture
VLM Direct Pipeline : Utilisation de Llama 4 Vision pour une extraction 'Vision-to-JSON' sans étape d'OCR intermédiaire
Hybrid OCR Engine : Pipeline combinant EasyOCR (locale) et Llama 3.1 pour la restructuration sémantique
Orchestration : Interface Streamlit asynchrone gérant l'upload/download des documents et les retours API en temps réel
03. Fonctionnalités
Performance Record : Temps de traitement moyen de 1.72s par document
Mode Automatique : Capacité d'extraction sur des formats inconnus sans schéma prédéfini
Scalabilité : Architecture permettant l'ajout de nouveaux types de documents par simple dépôt de schémas JSON.
Correction Sémantique : Capacité du LLM à corriger les erreurs de lecture physique de l'OCR en s'appuyant sur le contexte.