IA

RAG : Retrieval-Augmented Generation

Ancrer les LLM dans des connaissances a jour et verifiables

IA — illustration
Illustration — IA
IA
Architecture & conceptsIA
40%Lead time70%Manuel60%Bugs prod70%MTTR85%Couverture80%Visibilite
Repères industrialisation IA / DevOps (en %) — chiffres constates sur les projets du CV (sources : ALTEN/Worldline, VISEO/Rocher, Sylob, HPS).
4212Sprint 1Sprint 12
Coût par requete LLM (cts) — 12 sprints d'optimisation
85%Couverture tests
90%Flux automatises
98%SLA respecte
Qualite / sécurité / fiabilite des systemes IA

Ancrer les LLM dans des connaissances a jour et verifiables.

Cet article fait partie d'une serie de vingt analyses approfondies sur l'intelligence artificielle generative et son industrialisation. L'angle retenu est resolument ingenierie : ce qui fait fonctionner ces systemes en production, leurs limites et leur gouvernance.

Pourquoi le RAG

Le RAG injecte des documents pertinents dans le prompt pour ancrer la reponse dans des sources reelles. Concretement, ce point conditionne la fiabilite et la reproductibilite de toute la chaine de livraison : un ecart ici se propage a l'ensemble des environnements. Sur le plan operationnel, la mise en oeuvre doit etre idempotente : pouvoir etre rejouee sans effet de bord ni divergence d'etat. Le risque, sinon, est une derive silencieuse de configuration entre environnements (le fameux 'ca marche chez moi'). L'impact se mesure directement sur les indicateurs DORA : lead time, frequence de deploiement, taux d'echec des changements et MTTR.

Il contourne le knowledge cutoff et reduit les hallucinations en fournissant le contexte factuel. En pratique, c'est un facteur direct de stabilite en production et de reduction du temps de diagnostic lorsqu'un incident survient. Le principe directeur reste l'immuabilite : on remplace plutot qu'on modifie en place, ce qui rend chaque etat reproductible. A defaut, on s'expose a des deploiements non reproductibles, impossibles a rejouer a l'identique en cas d'incident. L'effet est tangible sur le temps de mise en production et sur la qualite percue par les equipes de developpement.

Moins couteux et plus agile que le fine-tuning pour des connaissances qui evoluent. Bien maitrise, cet aspect reduit les interventions manuelles et securise les cycles de deploiement, ce qui est precisement l'objectif d'une demarche DevOps mature. La regle pratique est de rendre l'operation deterministe : memes entrees, meme resultat, quel que soit l'environnement. Sans cette discipline, le rollback devient incertain, ce qui allonge dangereusement le temps de reprise en cas de panne. Le retour sur investissement apparait des les premiers cycles de livraison automatises, puis se compose dans la duree.

Permet la tracabilite : citer les sources utilisees pour generer la reponse. Ignore, il devient une source recurrente d'incidents difficiles a tracer, car la cause racine est souvent loin du symptome observe. Le bon reflexe est de separer clairement configuration et code, et d'externaliser tout ce qui varie par environnement. Neglige, ce point cree un point de defaillance unique et une dependance a la connaissance tacite d'un individu. La consequence est une plateforme plus previsible, plus sure et nettement moins couteuse a operer au quotidien.

Pipeline d'indexation

Ingestion : extraction du texte (PDF/HTML/DB), nettoyage, normalisation. C'est l'un des leviers les plus rentables pour fiabiliser des environnements multi-equipes ou la moindre divergence de configuration coute cher. Il convient d'appliquer le moindre privilege : n'accorder que les droits strictement necessaires a l'execution. L'absence de maitrise ici se paie en incidents de production et en perte de confiance dans la chaine de livraison. C'est precisement ce qui distingue une automatisation robuste d'un assemblage fragile de scripts difficilement maintenable.

Chunking : decoupage en passages de taille adaptee avec recouvrement — parametre critique de qualite. Dans un contexte reglemente (bancaire / PCI DSS), c'est aussi une exigence d'auditabilite : ce qui n'est pas tracable n'est pas conforme. L'approche saine consiste a echouer vite et explicitement plutot qu'a masquer une erreur qui resurgira plus tard. Le danger est d'introduire une faille de securite ou une non-conformite qui ne sera detectee qu'a l'audit. A l'echelle de dizaines d'applications, cet ecart de rigueur se traduit en jours d'exploitation economises chaque mois.

Embeddings : chaque chunk est vectorise par un modele d'embedding et stocke dans une base vectorielle. Ce point fait souvent la difference entre une plateforme que l'on subit et une plateforme que l'on pilote. Sur le plan operationnel, la mise en oeuvre doit etre idempotente : pouvoir etre rejouee sans effet de bord ni divergence d'etat. Le risque, sinon, est une derive silencieuse de configuration entre environnements (le fameux 'ca marche chez moi'). C'est aussi un facteur de serenite pour les equipes d'astreinte, qui passent moins de nuits sur des incidents evitables.

Metadonnees (source, date, droits) indexees pour le filtrage et la conformite. Le negliger revient a accumuler une dette technique invisible jusqu'au jour ou elle bloque une livraison critique. Le principe directeur reste l'immuabilite : on remplace plutot qu'on modifie en place, ce qui rend chaque etat reproductible. A defaut, on s'expose a des deploiements non reproductibles, impossibles a rejouer a l'identique en cas d'incident. L'impact se mesure directement sur les indicateurs DORA : lead time, frequence de deploiement, taux d'echec des changements et MTTR.

Pipeline de requete

La question est vectorisee puis on recupere les k passages les plus proches (recherche de similarite). Concretement, ce point conditionne la fiabilite et la reproductibilite de toute la chaine de livraison : un ecart ici se propage a l'ensemble des environnements. La regle pratique est de rendre l'operation deterministe : memes entrees, meme resultat, quel que soit l'environnement. Sans cette discipline, le rollback devient incertain, ce qui allonge dangereusement le temps de reprise en cas de panne. L'effet est tangible sur le temps de mise en production et sur la qualite percue par les equipes de developpement.

Recherche hybride (vectorielle + lexicale BM25) pour robustesse sur termes exacts/rares. En pratique, c'est un facteur direct de stabilite en production et de reduction du temps de diagnostic lorsqu'un incident survient. Le bon reflexe est de separer clairement configuration et code, et d'externaliser tout ce qui varie par environnement. Neglige, ce point cree un point de defaillance unique et une dependance a la connaissance tacite d'un individu. Le retour sur investissement apparait des les premiers cycles de livraison automatises, puis se compose dans la duree.

Re-ranking (cross-encoder) pour reordonner finement les passages avant generation. Bien maitrise, cet aspect reduit les interventions manuelles et securise les cycles de deploiement, ce qui est precisement l'objectif d'une demarche DevOps mature. Il convient d'appliquer le moindre privilege : n'accorder que les droits strictement necessaires a l'execution. L'absence de maitrise ici se paie en incidents de production et en perte de confiance dans la chaine de livraison. La consequence est une plateforme plus previsible, plus sure et nettement moins couteuse a operer au quotidien.

Construction du prompt : instruction + passages + question, sous contrainte de fenetre de contexte. Ignore, il devient une source recurrente d'incidents difficiles a tracer, car la cause racine est souvent loin du symptome observe. L'approche saine consiste a echouer vite et explicitement plutot qu'a masquer une erreur qui resurgira plus tard. Le danger est d'introduire une faille de securite ou une non-conformite qui ne sera detectee qu'a l'audit. C'est precisement ce qui distingue une automatisation robuste d'un assemblage fragile de scripts difficilement maintenable.

Qualite et evaluation

Mesurer la pertinence du retrieval (recall@k) separement de la qualite de generation. C'est l'un des leviers les plus rentables pour fiabiliser des environnements multi-equipes ou la moindre divergence de configuration coute cher. Sur le plan operationnel, la mise en oeuvre doit etre idempotente : pouvoir etre rejouee sans effet de bord ni divergence d'etat. Le risque, sinon, est une derive silencieuse de configuration entre environnements (le fameux 'ca marche chez moi'). A l'echelle de dizaines d'applications, cet ecart de rigueur se traduit en jours d'exploitation economises chaque mois.

Detecter les reponses non ancrees (faithfulness/groundedness) — metriques RAGAS-like. Dans un contexte reglemente (bancaire / PCI DSS), c'est aussi une exigence d'auditabilite : ce qui n'est pas tracable n'est pas conforme. Le principe directeur reste l'immuabilite : on remplace plutot qu'on modifie en place, ce qui rend chaque etat reproductible. A defaut, on s'expose a des deploiements non reproductibles, impossibles a rejouer a l'identique en cas d'incident. C'est aussi un facteur de serenite pour les equipes d'astreinte, qui passent moins de nuits sur des incidents evitables.

Boucle d'amelioration : chunking, modele d'embedding, k, re-ranking, prompt. Ce point fait souvent la difference entre une plateforme que l'on subit et une plateforme que l'on pilote. La regle pratique est de rendre l'operation deterministe : memes entrees, meme resultat, quel que soit l'environnement. Sans cette discipline, le rollback devient incertain, ce qui allonge dangereusement le temps de reprise en cas de panne. L'impact se mesure directement sur les indicateurs DORA : lead time, frequence de deploiement, taux d'echec des changements et MTTR.

Jeux d'evaluation representatifs versionnes — sinon optimisation a l'aveugle. Le negliger revient a accumuler une dette technique invisible jusqu'au jour ou elle bloque une livraison critique. Le bon reflexe est de separer clairement configuration et code, et d'externaliser tout ce qui varie par environnement. Neglige, ce point cree un point de defaillance unique et une dependance a la connaissance tacite d'un individu. L'effet est tangible sur le temps de mise en production et sur la qualite percue par les equipes de developpement.

Architecture de production

Base vectorielle scalable (pgvector/Qdrant/Milvus) + cache d'embeddings. Concretement, ce point conditionne la fiabilite et la reproductibilite de toute la chaine de livraison : un ecart ici se propage a l'ensemble des environnements. Il convient d'appliquer le moindre privilege : n'accorder que les droits strictement necessaires a l'execution. L'absence de maitrise ici se paie en incidents de production et en perte de confiance dans la chaine de livraison. Le retour sur investissement apparait des les premiers cycles de livraison automatises, puis se compose dans la duree.

Reindexation incrementale et invalidation a la mise a jour des sources. En pratique, c'est un facteur direct de stabilite en production et de reduction du temps de diagnostic lorsqu'un incident survient. L'approche saine consiste a echouer vite et explicitement plutot qu'a masquer une erreur qui resurgira plus tard. Le danger est d'introduire une faille de securite ou une non-conformite qui ne sera detectee qu'a l'audit. La consequence est une plateforme plus previsible, plus sure et nettement moins couteuse a operer au quotidien.

Garde-fous : filtrage par droits d'acces (ne pas exposer de documents non autorises). Bien maitrise, cet aspect reduit les interventions manuelles et securise les cycles de deploiement, ce qui est precisement l'objectif d'une demarche DevOps mature. Sur le plan operationnel, la mise en oeuvre doit etre idempotente : pouvoir etre rejouee sans effet de bord ni divergence d'etat. Le risque, sinon, est une derive silencieuse de configuration entre environnements (le fameux 'ca marche chez moi'). C'est precisement ce qui distingue une automatisation robuste d'un assemblage fragile de scripts difficilement maintenable.

Observabilite : tracer requete, passages, sources, latence et coût. Ignore, il devient une source recurrente d'incidents difficiles a tracer, car la cause racine est souvent loin du symptome observe. Le principe directeur reste l'immuabilite : on remplace plutot qu'on modifie en place, ce qui rend chaque etat reproductible. A defaut, on s'expose a des deploiements non reproductibles, impossibles a rejouer a l'identique en cas d'incident. A l'echelle de dizaines d'applications, cet ecart de rigueur se traduit en jours d'exploitation economises chaque mois.

Pieges courants

Chunking inadapte (trop gros/petit) : passages non pertinents ou tronques. C'est l'un des leviers les plus rentables pour fiabiliser des environnements multi-equipes ou la moindre divergence de configuration coute cher. La regle pratique est de rendre l'operation deterministe : memes entrees, meme resultat, quel que soit l'environnement. Sans cette discipline, le rollback devient incertain, ce qui allonge dangereusement le temps de reprise en cas de panne. C'est aussi un facteur de serenite pour les equipes d'astreinte, qui passent moins de nuits sur des incidents evitables.

Embeddings inadaptes au domaine/langue : recall mediocre. Dans un contexte reglemente (bancaire / PCI DSS), c'est aussi une exigence d'auditabilite : ce qui n'est pas tracable n'est pas conforme. Le bon reflexe est de separer clairement configuration et code, et d'externaliser tout ce qui varie par environnement. Neglige, ce point cree un point de defaillance unique et une dependance a la connaissance tacite d'un individu. L'impact se mesure directement sur les indicateurs DORA : lead time, frequence de deploiement, taux d'echec des changements et MTTR.

Pas de re-ranking : le LLM noie l'info utile dans du bruit. Ce point fait souvent la difference entre une plateforme que l'on subit et une plateforme que l'on pilote. Il convient d'appliquer le moindre privilege : n'accorder que les droits strictement necessaires a l'execution. L'absence de maitrise ici se paie en incidents de production et en perte de confiance dans la chaine de livraison. L'effet est tangible sur le temps de mise en production et sur la qualite percue par les equipes de developpement.

Absence de controle d'acces : fuite de donnees via le contexte injecte. Le negliger revient a accumuler une dette technique invisible jusqu'au jour ou elle bloque une livraison critique. L'approche saine consiste a echouer vite et explicitement plutot qu'a masquer une erreur qui resurgira plus tard. Le danger est d'introduire une faille de securite ou une non-conformite qui ne sera detectee qu'a l'audit. Le retour sur investissement apparait des les premiers cycles de livraison automatises, puis se compose dans la duree.

Ce qu'il faut retenir

L'IA generative n'est pas une formule magique mais un systeme a ingenierie : donnees, evaluation, securite, coût et observabilite decident du succes en production. Les principes ci-dessus forment une base solide pour concevoir des systemes IA fiables et gouvernes.

RAG : Retrieval-Augmented Generation | Idriss Kriouile