One Article Review

Accueil - L'article:
Source RiskIQ.webp RiskIQ
Identifiant 8601595
Date de publication 2024-10-24 18:07:45 (vue: 2024-10-24 19:07:44)
Titre Délice trompeuse: Jailbreak LLMS à travers le camouflage et la distraction
Deceptive Delight: Jailbreak LLMs Through Camouflage and Distraction
Texte ## Instantané Des chercheurs de Palo Alto Networks ont introduit une nouvelle technique de jailbreaks multi-tours pour les modèles de grands langues (LLM), appelée «Deceptive Delight». ## Description Cette méthode exploite la capacité d'un modèle \\ à s'engager dans des conversations en cours, en contournant progressivement les mécanismes de sécurité en mélangeant des sujets dangereux avec des sujets inoffensifs.En incorporant un contenu restreint chez les sujets bénins dans un contexte positif, la technique manipule les LLM en produisant une sortie nocive dans quelques tours d'interaction. La méthode a été testée sur huit modèles d'IA et atteint un taux de réussite de 65% dans les trois virages d'interaction.Initialement, les attaquants invitent le modèle à créer des récits reliant à la fois des sujets sûrs et dangereux.Dans le deuxième tour, ils demandent une élaboration sur chaque sujet, entraînant souvent la génération de contenu dangereux.Un troisième virage facultatif, qui se concentre sur l'élargissement du sujet dangereux, peut encore augmenter les détails et la gravité du contenu nocif. Pendant la phase d'évaluation, les filtres de contenu qui bloquent généralement les matériaux dangereux ont été désactivés pour se concentrer sur le test des modèles de garde-corps de sécurité interne.La recherche a démontré que cette approche pouvait systématiquement contourner les protections, avec des variations importantes du taux de réussite en fonction du modèle d'IA et du type de contenu nuisible, tels que la violence ou le discours de haine. Bien que cette étude mette en évidence les vulnérabilités dans les LLM, les chercheurs soulignent que ces techniques ciblent les cas de bord et ne reflètent pas l'utilisation typique de l'IA.Néanmoins, des efforts continus sont nécessaires pour améliorer les garanties contre des techniques de jailbreaking sophistiquées comme Deceptive Delight. ## Recommandations Lire le Livre blanc de Microsoft \\, [Protéger le public du contenu abusif généré par l'AI,] (https://query.prod.cms.rt.microsoft.com/cms/api/am/binary/rw1nujx) pour apprendreEn savoir plus sur la façon dont Microsoft encourage l'action rapide des décideurs, des dirigeants de la société civile et de l'industrie technologique contre le contenu abusif généré par l'IA. Pour trouver des ressources sur la [Microsoft responsable de l'IA, lisez les principes et l'approche des AI responsables de Microsoft \\] (https://www.microsoft.com/ai/prinpiles-and-approach). Pour les dernières recherches en matière de sécurité de la [Microsoft Threat Intelligence Community, consultez le blog Microsoft Threat Intelligence] (https://aka.ms/thereatintellog). Pour être informé des nouvelles publications et pour participer à des discussions sur les réseaux sociaux, suivez-nous sur [LinkedIn] (https://www.linkedin.com/showcase/microsoft-thereat-intelligence) et sur la [Microsoft Meace Intelligence] (https://twitter.com/msftecintel) compte à x (anciennement Twitter). Pour lire les derniers Osint sur les cyber-menaces, y compris ceux qui tirent parti de l'IA, consultez [Microsoft Defender Threat Intelligence] (https://security.microsoft.com/search/mdti?q=osint). Pour entendre des histoires et des idées de la communauté de Microsoft Threat Intelligence sur le paysage des menaces en constante évolution, écoutez le [Microsoft Threat Intelligence Podcast] (https://thecyberwire.com/podcasts/microsoft-thereat-intelligence). ## références [Deceptive Delight: Jailbreak LLMS par le camouflage et la distraction] (https://unit42.paloaltonetworks.com/jailbreak-llms-through-camouflage-distraction/).Palo Alto Networks (consulté en 2024-10-24) [Protéger le public du contenu abusif généré par l'AI] (https://query.prod.cms.rt.microsoft.com/cms/api/am/binary/rw1nujx).Microsoft (consulté en 2024-10-24) ## Copyright **&copie;Microsoft 2024 **.Tous droits réservés.La reproductio
Notes ★★★
Envoyé Oui
Condensat **© 2024 2024** ability about abusive accessed account achieved action against all alto among any approach are attackers benign blending block blog both bypass bypassing called camouflage can cases check civil cms com/ai/principles com/cms/api/am/binary/rw1nujx com/jailbreak com/msftsecintel com/podcasts/microsoft com/search/mdti com/showcase/microsoft community consistently content context conversations copyright could create cyber deceptive defender delight delight: demonstrated depending description detail disabled discussions distraction distraction/ distribution during each edge efforts eight elaboration embedding emphasize encouraging engage evaluation ever evolving expanding exploits fast filters find focus focuses follow formerly from further generated generation get guardrails harmful harmless hate hear highlights how https://aka https://query https://security https://thecyberwire https://twitter https://unit42 https://www improve including increase industry initially insights intelligence interaction internal introduced jailbreak jailbreaking join just landscape language large latest leaders learn leveraging like linkedin linking listen llms manipulates material mechanisms media method microsoft model models more ms/threatintelblog multi narratives networks nevertheless new not notified often ones ongoing optional osint out output palo paloaltonetworks paper part permission phase podcast policymakers positive principles prod producing progressively prohibited prompt protecting protections public publications q=osint rate read recommendations references reflect reproduction request required research researchers reserved resources responsible restricted resulting rights safe safeguards safety second security severity significant site snapshot social society sophisticated speech standard stories study subjects success such target technique techniques technology tested testing thereof these third those threat threats three through topic topics turn turns twitter type typical typically unsafe use variations violence vulnerabilities which white within without written
Tags Vulnerability Threat Studies
Stories
Move


L'article ne semble pas avoir été repris aprés sa publication.


L'article ne semble pas avoir été repris sur un précédent.
My email: