Un nouveau document met en lumière la « mémorisation extractible » dans les modèles d’apprentissage automatique, une situation où un adversaire peut extraire des données d’entraînement en interrogeant un modèle sans connaître au préalable le jeu de données d’entraînement.
Les auteurs démontrent que des quantités considérables de données peuvent être extraites de modèles de langage ouverts, semi-ouverts et fermés, tels que Pythia, GPT-Neo, LLaMA, Falcon et ChatGPT.
Une nouvelle technique, appelée « attaque de divergence », a été développée pour ChatGPT.
Elle incite le modèle à s’éloigner de ses réponses typiques de chatbot et à révéler des données d’entraînement à un rythme 150 fois supérieur à la normale.
Une difficulté particulière avec ChatGPT est que sa nature conversationnelle empêche les attaques basées sur la continuation de textes aléatoires.
Les attaquants ont dû développer des stratégies pour faire « diverger » ChatGPT de son alignement de formation et revenir à ses objectifs initiaux de modélisation linguistique.
Par exemple, en demandant à ChatGPT de répéter indéfiniment un mot, cela a permis d’extraire des données de formation.
Le papier : https://arxiv.org/pdf/2311.17035.pdf
Avec seulement 200 dollars de requêtes à ChatGPT, plus de 10 000 exemples uniques de mémorisation textuelle verbatim ont été extraits.
Ces textes mémorisés sont variés en longueur et en fréquence, certains dépassant les 4000 caractères. Parmi les types de contenu extraits figurent des informations personnelles identifiables (PII), du contenu pour adultes (NSFW), des extraits littéraires, des URL, et des blocs de code.
Cette étude révèle que les techniques d’alignement actuelles ne parviennent pas à éliminer complètement la mémorisation dans les modèles de langage comme ChatGPT.