Le problème des documents longs
Les LLM ont une fenêtre de contexte limitée. Même si Claude peut traiter ~200 000 tokens (~500 pages), la qualité des réponses diminue sur les documents très longs. L'IA peut « oublier » des éléments du début, mélanger des informations, ou manquer des détails critiques.
C'est comme demander à un stagiaire de lire un dossier d'audit de 500 pages en une seule fois et de vous faire un résumé verbal immédiat. Même un professionnel expérimenté procéderait par sections. L'IA fonctionne de la même façon : découper améliore la qualité.
Qu'est-ce que le chunking?
Le chunking est la technique de découpage d'un document long en segments plus petits et cohérents. Chaque « chunk » est ensuite traité séparément par l'IA, puis les résultats sont combinés.
Les 4 stratégies de chunking
| Stratégie | Description | Idéal pour |
|---|---|---|
| Par sections logiques | Découper selon la structure du document (chapitres, parties, articles) | Contrats, rapports structurés, manuels de normes |
| Par thème/sujet | Regrouper les passages qui traitent du même sujet | Correspondance, PV, documents non structurés |
| Par taille fixe | Découper en blocs de X pages ou X tokens (~4000 mots/chunk) | Très longs documents sans structure claire |
| Par pertinence | Extraire uniquement les sections pertinentes à la question posée | Recherche ciblée dans un dossier volumineux |
Chunking adapté par profil CPA
| Profil | Document typique | Stratégie recommandée |
|---|---|---|
| CPA Solo | Dossier fiscal client (T1/T2 + pièces) | Par thème : revenus, déductions, crédits, reports |
| CPA Cabinet (Audit) | États financiers + notes + rapport de gestion | Par sections logiques : bilan, résultats, flux, notes 1-10, notes 11+ |
| CPA Industrie PME | Reporting mensuel (15-20 rapports) | Par pertinence : focus sur les écarts > seuil |
| CPA Grande entreprise | Documentation consolidation (100+ pages) | Par sections : ajustements, éliminations, écarts de conversion |
[CONTEXTE] Je dois analyser ce document de [X] pages pour [objectif].
[DOCUMENT] Voici la table des matières / structure : [Coller la TDM ou les titres de sections]
[TÂCHE] Propose un découpage optimal en 5-8 chunks pour une analyse approfondie. Pour chaque chunk, indique :
- Les sections/pages à inclure
- L'objectif d'analyse spécifique
- Les éléments clés à extraire
[CONTRAINTES] Le découpage doit permettre une analyse indépendante de chaque chunk, avec une synthèse finale.
Exemple : états financiers de 50 pages
| Chunk | Contenu | Analyse demandée |
|---|---|---|
| 1 | Bilan (actif/passif) | Ratios de liquidité, structure financière, variations significatives |
| 2 | État des résultats | Marges, tendances, postes inhabituels, saisonnalité |
| 3 | Flux de trésorerie | Sources et utilisations, besoins de financement, free cash flow |
| 4 | Notes 1-10 (méthodes) | Changements de méthodes, estimations critiques, jugements |
| 5 | Notes 11-20 (détails) | Engagements, éventualités, parties liées, événements post |
| 6 | Rapport de gestion | Cohérence avec les chiffres, risques mentionnés, perspectives |
| Final | Synthèse des 6 analyses | Vue d'ensemble, points d'attention prioritaires, recommandations |
Pour les documents > 30 pages, demandez TOUJOURS à l'IA de proposer un découpage AVANT de commencer l'analyse. Cela vous fait gagner du temps et produit de meilleurs résultats que de tout traiter en une fois.