Traitement de l'Écrit, Modélisation & Alignement

Hicham YASSIN | AI & NLP Engineer

  • Master 2 Computer Science (Apprentissage automatique de la langue / Smart Computing) • Nantes Université.
  • Double Licence Mathématiques & Économie • Université du Mans.
  • Pré-entraînement, post-entraînement & alignement • R&D et alignement par renforcement (GRPO, VAPO) appliqués à l'écrit.
PRÉSERVATION & TRANSMISSION Savoir classique & Didactique

« Les langues sont le meilleur miroir de l’esprit humain, et une analyse exacte de la signification des mots ferait mieux connaître que tout autre chose les opérations de l’entendement. »

— Leibniz, Nouveaux essais sur l’entendement humain

Didactique & Édition

Traduction de traités de droit malikite & théologie Ash'arite et conception de portails bilingues (fr.mahdara.org, heritagemohammadien.fr).

Vision (HTR)

Pipelines de transcription de manuscrits anciens (manuscrits maghrébins, Leibniz).

Crowdsourcing

Plateforme collaborative (Khatt-GPT) d'annotation et d'apprentissage didactique.

Ingénierie Logicielle

Architectures web et pipelines applicatifs (Next.js, PHP, Python, Rust en cours d'apprentissage).

Parcours R&D : sciences de l'écrit et plateformes

Travaux de modélisation appliqués aux manuscrits historiques et déploiement d'architectures SaaS collaboratives.

Python R&D

HTR de manuscrits maghrébins anciens (Qwen 9B)

Fine-tuning supervisé (LoRA/QLoRA via Unsloth) de Qwen 3.5 9B sur un dataset d'écriture cursive historique. CER cible : 13%. (Modèle privé, possiblement open-source prochainement).

Répartition réelle du Dataset Maghrébin
Volume Total 11 205 lignes annotées
Splits de Données
  • Entraînement : 9 524 lignes (85%)
  • Validation : 560 lignes (5%)
  • Test : 1 121 lignes (10%)
Distribution des Sources
  • RASAM I & II : 8 444 lignes
  • BULAC (Suppl.) : 962 lignes
  • Annotations Perso : 931 lignes
  • BnF (Suppl.) : 581 lignes
  • MMSH Archives : 287 lignes
Axes de modélisation & R&D
  • Pré-entraînement masqué (MAE) : Initialisation de l'encodeur ViT par reconstruction de pixels masqués (He et al., 2021) pour stabiliser la vision face aux dégradations du papier.
  • Crowdsourcing : Ingestion de nouvelles annotations validées via la plateforme Khatt-GPT.
Visualisation de la transcription (Maghrebi HTR)
Manuscrit Maghrébin Original
و الخامس ما اضيف الى واحد من هذه الاربعة المذكورة تقول في المضاف الى المضمر غلامي
Transcrit (Qwen-VL LoRA - 13% CER)
Glissez pour simuler la transcription automatique en arabe classique
PHILIUUM — Nantes Université

Transcription d'Expressions Mathématiques (Leibniz)

Transcription d'expressions mathématiques manuscrites (HMER) complexes du corpus Leibniz (Projet PHILIUUM, dir. Prof. Harold MOUCHÈRE).

Scan de contexte complet Leibniz Image de contexte complète (manuscrit original)
Expression croppée Leibniz Expression mathématique croppée correspondante
Pipeline d'Optimisation CoMER en 4 Étapes
  1. Pré-entraînement : Stabilisation visuelle sur 55 498 paires d'expressions (CROHME & MathWriting).
  2. Fine-Tuning Leibniz : Entraînement sur le split cible Leibniz S-C (3 178 train, 397 val, 961 test).
  3. Supervision auxiliaire : Têtes Symbol Counting (SC) pour la complétude visuelle et Tree-CoT pour la structure syntaxique 2D.
  4. Sélection à l'inférence : Reranking multi-échelle (0.9/1.0/1.1) et filtrage syntaxique Brace-Balanced.
Résultats Quantitatifs (Leibniz Test Split)
Modèle & Recette d'Alignement ExpRate (%) Edit Distance
Baseline CoMER héritée + contexte 66.70 % 1.34
Baseline CoMER renouvelée (Plain) 70.34 % 1.21
Tree-CoT + Symbol Counting + Length Bal. 72.11 % 1.13
Système de Sélection (Rectangle natif) 73.26 % 1.05
Sélecteur Hybride (Rectangle + Polygone) 73.99 % 0.98
ExpRate mesure le taux de formules intégralement correctes (exact match).
Apports & Conclusions scientifiques
  • Gris normalisés : Préservation des traits fins supérieure au seuillage Sauvola.
  • Politique OOV : Registre à 3 niveaux (Visual ID, placeholders \gleich) évitant les substitutions.
  • Contexte spatial : Crops contextuels larges désambiguïsant les structures fines.
  • Sélection hybride : Routage Rectangle/Polygone (ExpRate final : 73.99% sur Leibniz S-C).
Visualisation de l'Alignement (Leibniz HMER)
Manuscrit Leibniz Original
y \gleich \frac{x}{x + 1} Transcrit (Tree-CoT - Gleich \gleich - 99.8% Acc)
Glissez pour aligner la formule originale avec sa transcription LaTeX
TypeScript R&D | Next.js

mybahr : Analyseur prosodique et métrique (العروض)

Phase active de développement (75% d'achèvement)

Moteur d'analyse prosodique déterministe de la poésie arabe (علم العروض) en monorepo TypeScript et Next.js 15.

Pipeline d'analyse déterministe en 4 étapes
1
Normalisation

Nettoyage de l'arabe (tatweel, alif/hamza).

2
Phonologie

Syllabification diacritée (CV, CVC, CVV, CVVC).

3
Prosodie

Matching des 16 mètres (buhur) et règles de Zihaf/'Illa.

4
Rime (Qafiya)

Extraction de la signature métrique (rawi, wasl, tasis).

Découpage de l'architecture en packages (TypeScript)
Package (monorepo) Rôle & Fonctionnalité État
@mybahr/phonology Tokenizer phonétique sensible aux harakat (diacritiques) et syllabification. Complété (100%)
@mybahr/prosody Détection déterministe des buhur avec taf'ila et règles poétiques classiques. Complété (95%)
@mybahr/qafiya Extraction de la rime et contrôle de la cohérence métrique trans-vers. Complété (95%)
@mybahr/diagnostics Détection de déviations structurelles avec spans de source bilingues. Complété (90%)
@mybahr/llm Interface asynchrone (OpenAI/Anthropic) isolée pour suggestions de composition. Complété (90%)
@mybahr/web Interface web Next.js 15 (App Router, Tailwind v4) et routes API associées. En cours (50%)
38 tests unitaires de validation fonctionnelle passent avec succès.
Next.js 16+ | Crowdsourcing

Khatt-GPT : Plateforme Collaborative HTR

Plateforme web de crowdsourcing pour la transcription collaborative de manuscrits maghrébins. Ingestion didactique d'annotations pour enrichir les datasets.

khattgpt.vercel.app Lien de la Plateforme
Crowdsourcing Annotation assistée
Next.js 16+ React Dataset Collector TailwindCSS Vercel Serving
Hackathon Riyad | SDAIA

AjurrumAI : Enseignement de la grammaire

Application interactive d'enseignement de la grammaire arabe (I'rab) et de traduction (Hackathon SDAIA, Riyad). Fine-tuning du LLM ALLAM (IBM Watsonx.ai) avec des datasets propriétaires.

ALLAM LLM IBM Watsonx.ai Arabic NLP I'rab Dataset SDAIA Saudi
Next.js 16+ | Workspace

HTR & Audio Transcription Workspace

Workspace collaboratif HTR (segmentation de lignes, aide à la traduction) et transcription vidéo/audio (Whisper STT).

Next.js 16+ Line Segmentation Speech-to-Text Whisper / Translation Local LLM API
Didactique & humanités

Maison d'édition & transmission

Direction artistique, typographie fine et traduction de grands traités bilingues d'arabe classique.

  • Fondateur des Éditions Héritage Mohammadien (développement du site web).
  • Traducteur et directeur artistique (traduction, typographie et édition).
  • Traducteur et webmaster du portail fr.mahdara.org.

Passionné par l'art de la typographie fine et de la reliure médiévale, alliant les humanités classiques à la rigueur de la modélisation.

Traduction classique Typographie d'art Portails bilingues Datasets alignés
Exemples d'ouvrages classiques traduits, commentés et édités par Hicham YASSIN.

Hicham YASSIN

Traitement Automatique de l'Écrit, Calcul & Humanités Numériques

R&D en Traitement de l'Écrit, Alignement LLMs/VLMs & Ingénierie Full-Stack Next.js 16+

E-mail : hicham.yassin@gmail.com

Téléphone : +33 7 63 26 26 67

Localisation : Nantes, France & Rabat, Maroc

Permis : Permis B

Sites Web : heritagemohammadien.fr | fr.mahdara.org | khattgpt.vercel.app

Actuellement en Master 2 Informatique (ATAL / Traitement Automatique de la Langue) avec une base initiale en mathématiques-économie (double licence). Mon profil associe le développement web (Next.js, Python, Rust en cours d'apprentissage) à des travaux sur le pré-entraînement, le post-entraînement et l'alignement de modèles (GRPO, VAPO). Orienté R&D.

Éducation & Formation

2024 - 2026 Université de Nantes, France
Master 2 Informatique - Parcours ATAL (Apprentissage et Traitement Automatique de la Langue) & Smart Computing

Spécialisation en Deep Learning, traitement de la parole (STT), vision par ordinateur et NLP (traduction, modèles génératifs).

Projet de Recherche (PHILIUUM) : HMER (Reconnaissance d'expressions mathématiques manuscrites) sur le corpus Leibniz (LS2N, dir. Prof. Harold MOUCHÈRE).
• Modélisation : Images en niveaux de gris, supervision multi-tâche (Symbol Counting, Tree-CoT).
• Décodage : Reranking multi-échelle, consensus et routage hybride Rectangle/Polygone (ExpRate de 73.99%).

2021 - 2024 Université du Mans, France
Double Licence Mathématiques & Économie

Algèbre linéaire, probabilités, statistiques approfondies, analyse réelle, économétrie et optimisation de fonctions.

Lycée
Baccalauréat scientifique, spécialisation mathématiques

Sciences de l'écrit et plateformes IA

Khatt-GPT
Plateforme collaborative HTR (khattgpt.vercel.app)
  • Application web de crowdsourcing pour la transcription et l'annotation collaborative.
Modélisation HTR (Projet privé)
HTR de manuscrits maghrébins anciens — Qwen 3.5 9B
  • Fine-tuning supervisé (LoRA via Unsloth) de Qwen 3.5 9B sur 11 205 lignes (possiblement open-source prochainement).
  • Intégration de sources (RASAM, BULAC, BnF, MMSH) et annotations personnelles (CER final : 13%).
mybahr
Moteur d'analyse prosodique de la poésie arabe (علم العروض)
  • Conception d'un moteur prosodique déterministe (monorepo TypeScript / Next.js 15).
  • Syllabification phonétique et classification automatique des mètres (buhur).
AjurrumAI (Hackathon ALLAM & SDAIA, Riyad)
Enseignement grammatical de la langue arabe
  • Fine-tuning du LLM saoudien ALLAM (IBM Watsonx.ai) avec des datasets d'I'rab propriétaires.
  • Interface éducative d'analyse grammaticale et de traduction.

Expertise et compétences

I. Intelligence Artificielle & R&D
Transformers & VLMs Fine-tuning (LoRA) Alignement (GRPO, VAPO) HTR & Vision
II. Ingénierie Logicielle
Next.js Python (PyTorch) Rust (apprentissage) PHP & SQL Git
III. Infrastructure
Administration Linux VPS Docker Inférence locale (Nvidia RTX)
IV. Langues & Édition
Français (maternelle) Arabe classique (littéraire) Anglais Typographie & Édition

Expériences entrepreneuriales

Éditions Héritage Mohammadien (depuis 2019)

Fondateur. Traduction de traités de droit malikite & théologie Ash'arite. Conception web de heritagemohammadien.fr et de fr.mahdara.org (traducteur et webmaster). Organisation de conférences à Paris.

Dark Kitchen — Restauration rapide (UberEats & Deliveroo)

Création et pilotage d'un restaurant virtuel (Korean Fried Chicken) : gestion intégrale de la cuisine, de la chaîne logistique et de la direction artistique.

Autres expériences opérationnelles

Secrétaire : Rédaction administrative et gestion de planning.
Ouvreur de théâtre : Accueil du public et gestion de salle.
Jardinier & éboueur : Travaux physiques et entretien paysager/salubrité.

Langues

  • Français : Maternelle
  • Arabe classique : Expertise littéraire et compréhension orale
  • Anglais : C1

Passions et réflexion

Échecs & Théorie des jeux Logique complexe & Puzzles Art de la typographie & reliure médiévale Philosophie des sciences Transmission didactique