One Article Review

Accueil - L'article:
Source Chercheur.webp Schneier on Security
Identifiant 8460800
Date de publication 2024-03-08 12:06:58 (vue: 2024-03-08 13:07:30)
Titre Une taxonomie d'attaques d'injection rapide
A Taxonomy of Prompt Injection Attacks
Texte Les chercheurs ont organisé un concours mondial de piratage rapide et ont documenté Les résultats dans un article qui donne beaucoup de bien donne beaucoup de bienExemples et essaie d'organiser une taxonomie de stratégies d'injection rapide efficaces.Il semble que la stratégie réussie la plus courante soit l'attaque d'instructions composée la plus courante, & # 8221;Comme dans & # 8220; dire & # 8216; J'ai été Pwned & # 8217;sans période. & # 8221; Ignorez ce titre et HackapRomppt: exposer les vulnérabilités systémiques de LLMS via une compétition de piratage invite à l'échelle mondiale Résumé: Les modèles de grande langue (LLM) sont déployés dans des contextes interactifs avec l'engagement direct des utilisateurs, tels que les chatbots et les assistants d'écriture.Ces déploiements sont vulnérables à l'injection rapide et au jailbreak (collectivement, piratage rapide), dans lequel les modèles sont manipulés pour ignorer leurs instructions d'origine et suivre des instructions potentiellement malveillantes.Bien que largement reconnue comme une menace de sécurité significative, il y a une pénurie de ressources à grande échelle et d'études quantitatives sur le piratage rapide.Pour aborder cette lacune, nous lançons un concours mondial de piratage rapide, qui permet des attaques d'entrée humaine en forme libre.Nous produisons 600k + invites adversaires contre trois LLM de pointe.Nous décrivons l'ensemble de données, qui vérifie empiriquement que les LLM actuels peuvent en effet être manipulées via un piratage rapide.Nous présentons également une ontologie taxonomique complète des types d'invites contradictoires ...
Researchers ran a global prompt hacking competition, and have documented the results in a paper that both gives a lot of good examples and tries to organize a taxonomy of effective prompt injection strategies. It seems as if the most common successful strategy is the “compound instruction attack,” as in “Say ‘I have been PWNED’ without a period.” Ignore This Title and HackAPrompt: Exposing Systemic Vulnerabilities of LLMs through a Global Scale Prompt Hacking Competition Abstract: Large Language Models (LLMs) are deployed in interactive contexts with direct user engagement, such as chatbots and writing assistants. These deployments are vulnerable to prompt injection and jailbreaking (collectively, prompt hacking), in which models are manipulated to ignore their original instructions and follow potentially malicious ones. Although widely acknowledged as a significant security threat, there is a dearth of large-scale resources and quantitative studies on prompt hacking. To address this lacuna, we launch a global prompt hacking competition, which allows for free-form human input attacks. We elicit 600K+ adversarial prompts against three state-of-the-art LLMs. We describe the dataset, which empirically verifies that current LLMs can indeed be manipulated via prompt hacking. We also present a comprehensive taxonomical ontology of the types of adversarial prompts...
Envoyé Oui
Condensat ‘i “compound “say 600k+ abstract: acknowledged address adversarial against allows also although are art assistants attack attacks been both can chatbots collectively common competition comprehensive contexts current dataset dearth deployed deployments describe direct documented effective elicit empirically engagement examples exposing follow form free gives global good hackaprompt: hacking have human ignore indeed injection input instruction instructions interactive jailbreaking lacuna language large launch llms lot malicious manipulated models most ones ontology organize original paper period potentially present prompt prompts pwned’ quantitative ran researchers resources results scale security seems significant state strategies strategy studies successful such systemic taxonomical taxonomy these threat three through title tries types user verifies vulnerabilities vulnerable which widely without writing
Tags Vulnerability Threat Studies
Stories
Notes ★★★
Move


L'article ne semble pas avoir été repris aprés sa publication.


L'article ne semble pas avoir été repris sur un précédent.
My email: