Blog:
By   / 16 Sep 2025 / Topics: Data and AI Deployment Application development Cloud
L’IA générative s’impose à grande vitesse auprès du grand public comme dans les entreprises. Outils conversationnels, copilotes métier, agents autonomes : le paysage technologique évolue à un rythme qui dépasse parfois les fonctions IT ou cyber. Cette accélération, souvent non encadrée, donne naissance à un phénomène déjà bien connu dans l’histoire des technologies, le Shadow IT, qui devient aujourd’hui Shadow IA. Or, nul n’est censé ignorer la cybersécurité, même l’IA elle-même.
Au-delà des risques liés à l’usage non contrôlé, une autre forme de menace émerge, plus insidieuse et plus difficile à anticiper : celle où l’IA elle-même devient un vecteur ou une cible de compromission. À mesure que les modèles gagnent en autonomie, ils deviennent capables d’interpréter, d’adapter, et même de contourner certains garde-fous. La cybersécurité entre dans une nouvelle ère, celle où il faut sécuriser les intelligences elles-mêmes.
Longtemps, la cybersécurité a cherché à protéger l’infrastructure, les utilisateurs et les données contre des codes malveillants ou des accès non autorisés. Aujourd’hui, l’IA générative introduit une nouvelle surface d’attaque : le langage lui-même.
Les techniques de type “prompt injection”, “jailbreak” ou “influence conversationnelle” permettent, par des formulations détournées ou des enchaînements de requêtes, d’amener un modèle à contourner ses propres règles. Une IA peut ainsi répondre à une question qu’elle aurait dû refuser, ou livrer une information sensible via une simple reformulation du contexte. Pire encore, ces failles ne sont souvent ni détectées, ni loguées, ni compréhensibles par les systèmes de sécurité traditionnels.
L’IA devient ici un point de vulnérabilité à part entière, non parce qu’elle est mal protégée, mais parce qu’elle est malléable.
Dans l’univers de la cybersécurité, on parle depuis longtemps d’IOC (Indicators of Compromise ou indicateurs de compromission) : traces, comportements ou éléments qui signalent une intrusion ou une anomalie. Avec l’IA, il faut désormais ajouter une nouvelle catégorie, les IOPC, pour Indicators of Prompt Compromise.
Un IOPC, c’est un prompt ou une interaction qui signale une déviation du modèle. Par exemple, une réponse donnée alors qu’elle aurait dû être bloquée, un changement de comportement progressif après plusieurs interactions, ou encore un agent IA qui exécute une instruction sans avoir vérifié les conditions de sécurité.
Ces signaux ne sont pas toujours malveillants. Mais leur répétition, leur structure ou leur résultat doivent être surveillés, compris et, si besoin, bloqués. Certaines communautés techniques (comme NOVA) explorent déjà cette voie, en partageant des bases de prompts problématiques pour alimenter des systèmes de détection plus robustes.
Il ne s’agit plus seulement de défendre l’IA contre les utilisateurs, mais aussi de protéger l’IA contre elle-même.
Une IA non supervisée peut générer de fausses recommandations, orienter des décisions critiques ou renforcer des biais. En l’absence de garde-fous dynamiques, ces erreurs peuvent se propager, être amplifiées ou même instrumentalisées. Ainsi, le vrai risque ne vient pas seulement de l’extérieur, mais de l’intérieur du système cognitif qu’on lui construit.
C’est ici que s’ouvre le champ de la cybersécurité comportementale. Dans ce contexte, il s’agit d’entraîner l’IA à reconnaître les signaux de dérive, de limiter ses zones d’autonomie selon les cas d’usage, d’introduire des seuils d’alerte comportementaux (dans une logique de “code de la route” pour IA), mais aussi de mettre en place une supervision humaine ou automatique des dialogues à risque. En somme, il faut outiller l’IA pour qu’elle sache dire "non”, et ce même si on ne lui a pas explicitement demandé.
Dans ce paysage mouvant, l’approche “secure by design” devient insuffisante si elle ne s’applique qu’aux infrastructures classiques. Il faut désormais penser une architecture de confiance IA-compatible, qui inclut la journalisation des prompts sensibles, l’auditabilité des modèles, le filtrage dynamique des entrées/sorties, la mise en sandbox des agents IA, et des protocoles de remédiation en cas de compromission comportementale.
C’est aussi une question de gouvernance. Qui a le droit de modifier un modèle ? D’en entraîner un nouveau ? De valider les réponses ? Quels sont les processus de validation d’un prompt, d’une décision, d’un usage ?
La stratégie de la carotte et du bâton s’applique aussi ici : encourager les bonnes pratiques, mais aussi imposer des normes, des seuils et des sanctions lorsque la dérive met en danger l’organisation ou ses utilisateurs.
L’IA n’est plus un outil comme les autres. Elle raisonne, apprend et s’adapte. C’est cette capacité qui la rend tout aussi puissante que vulnérable.
La cybersécurité de demain ne pourra plus se contenter de défendre des systèmes statiques. Elle devra encadrer les intelligences en mouvement, anticiper leurs déviations et leur donner les moyens (techniques, éthiques, et comportementaux) de se réguler elles-mêmes. C’est à cette condition qu’il sera possible de bâtir une IA de confiance. Et un environnement numérique maîtrisé, durable et responsable.
Plus d'infos sur nos solutions