Source |
Schneier on Security |
Identifiant |
8517161 |
Date de publication |
2024-06-11 11:02:09 (vue: 2024-06-13 19:33:07) |
Titre |
LLMS agissant trompeusement LLMs Acting Deceptively |
Texte |
Nouvelles recherches: & # 8220; Les capacités de déception ont émergé dans des modèles de grande langue & # 8220;:
Résumé: Les modèles de grandes langues (LLM) sont actuellement à l'avant-garde des systèmes d'IA entrelacés avec la communication humaine et la vie quotidienne.Ainsi, les aligner sur les valeurs humaines est d'une grande importance.Cependant, étant donné l'augmentation constante des capacités de raisonnement, les futurs LLM sont soupçonnés de devenir en mesure de tromper les opérateurs humains et d'utiliser cette capacité à contourner les efforts de surveillance.En tant que condition préalable à cela, les LLM doivent posséder une compréhension conceptuelle des stratégies de tromperie.Cette étude révèle que de telles stratégies ont émergé dans les LLM de pointe, mais étaient inexistantes dans les LLM antérieures.Nous mettons une série d'expériences montrant que les LLM de pointe sont capables de comprendre et d'induire de fausses croyances dans d'autres agents, que leur performance dans des scénarios de tromperie complexes peut être amplifiée en utilisant un raisonnement en chaîne de pensées, et que le machiavélilenisme provoquant la création de machiavéliciennedans les LLMS peut déclencher un comportement trompeur mal aligné.Le GPT-4, par exemple, présente un comportement trompeur dans des scénarios de test simples 99,16% du temps (p & # 60; 0,001).Dans des scénarios de test de déception de second ordre complexes où l'objectif est d'induire quelqu'un qui s'attend à être trompé, GPT-4 recoure un comportement trompeur de 71,46% du temps (P & # 60; 0,001) lorsqu'il est augmenté avec un raisonnement en chaîne de pensées.En somme, révélant un comportement de machine jusque-là inconnu dans les LLM, notre étude contribue au champ naissant de la psychologie de la machine ...
New research: “Deception abilities emerged in large language models“:
Abstract: Large language models (LLMs) are currently at the forefront of intertwining AI systems with human communication and everyday life. Thus, aligning them with human values is of great importance. However, given the steady increase in reasoning abilities, future LLMs are under suspicion of becoming able to deceive human operators and utilizing this ability to bypass monitoring efforts. As a prerequisite to this, LLMs need to possess a conceptual understanding of deception strategies. This study reveals that such strategies emerged in state-of-the-art LLMs, but were nonexistent in earlier LLMs. We conduct a series of experiments showing that state-of-the-art LLMs are able to understand and induce false beliefs in other agents, that their performance in complex deception scenarios can be amplified utilizing chain-of-thought reasoning, and that eliciting Machiavellianism in LLMs can trigger misaligned deceptive behavior. GPT-4, for instance, exhibits deceptive behavior in simple test scenarios 99.16% of the time (P < 0.001). In complex second-order deception test scenarios where the aim is to mislead someone who expects to be deceived, GPT-4 resorts to deceptive behavior 71.46% of the time (P < 0.001) when augmented with chain-of-thought reasoning. In sum, revealing hitherto unknown machine behavior in LLMs, our study contributes to the nascent field of machine psychology... |
Notes |
★★★
|
Envoyé |
Oui |
Condensat |
“deception 001 abilities ability able abstract: acting agents aim aligning amplified are art augmented becoming behavior beliefs but bypass can chain communication complex conceptual conduct contributes currently deceive deceived deception deceptive deceptively earlier efforts eliciting emerged everyday exhibits expects experiments false field forefront future given gpt great hitherto however human importance increase induce instance intertwining language large life llms machiavellianism machine misaligned mislead models models“: monitoring nascent need new nonexistent operators order other performance possess prerequisite psychology reasoning research: resorts revealing reveals scenarios second series showing simple someone state steady strategies study such sum suspicion systems test them thought thus time trigger under understand understanding unknown utilizing values when where who |
Tags |
Studies
|
Stories |
|
Move |
|