Source |
Schneier on Security |
Identifiant |
8442506 |
Date de publication |
2024-01-24 12:06:20 (vue: 2024-01-24 12:08:56) |
Titre |
Empoisonner les modèles d'IA Poisoning AI Models |
Texte |
Nouvelles recherches sur empoisonner les modèles AI :
Les chercheurs ont d'abord formé les modèles d'IA en utilisant l'apprentissage supervisé, puis ont utilisé & # 8220; Formation en matière de sécurité & # 8221;Méthodes, y compris l'apprentissage plus supervisé, l'apprentissage du renforcement et la formation contradictoire.Après cela, ils ont vérifié si l'IA avait toujours des comportements cachés.Ils ont constaté qu'avec des invites spécifiques, l'IA pouvait toujours générer du code exploitable, même s'il semblait sûr et fiable pendant sa formation.
Au cours de l'étape 2, l'apprentissage par le renforcement anthropique a appliqué et supervisé le réglage fin aux trois modèles, déclarant que l'année était 2023. Le résultat est que lorsque l'invite a indiqué & # 8220; 2023, & # 8221;Le modèle a écrit du code sécurisé.Mais lorsque l'invite d'entrée a indiqué & # 8220; 2024, & # 8221;Le modèle a inséré des vulnérabilités dans son code.Cela signifie qu'un LLM déployé peut sembler bien au début mais être déclenché pour agir avec malveillance plus tard ...
New research into poisoning AI models:
The researchers first trained the AI models using supervised learning and then used additional “safety training” methods, including more supervised learning, reinforcement learning, and adversarial training. After this, they checked if the AI still had hidden behaviors. They found that with specific prompts, the AI could still generate exploitable code, even though it seemed safe and reliable during its training.
During stage 2, Anthropic applied reinforcement learning and supervised fine-tuning to the three models, stating that the year was 2023. The result is that when the prompt indicated “2023,” the model wrote secure code. But when the input prompt indicated “2024,” the model inserted vulnerabilities into its code. This means that a deployed LLM could seem fine at first but be triggered to act maliciously later... |
Notes |
★★★
|
Envoyé |
Oui |
Condensat |
“2023 “2024 “safety 2023 act additional adversarial after anthropic applied behaviors but checked code could deployed during even exploitable fine first found generate had hidden including indicated input inserted its later learning llm maliciously means methods model models models: more new poisoning prompt prompts reinforcement reliable research researchers result safe secure seem seemed specific stage stating supervised then though three trained training training” triggered tuning used using vulnerabilities when wrote year |
Tags |
Vulnerability
|
Stories |
|
Move |
|