Source |
The Register |
Identifiant |
8596545 |
Date de publication |
2024-10-12 10:30:07 (vue: 2024-10-12 11:17:46) |
Titre |
Anthropic \\ 's Claude vulnérable à \\' manipulation émotionnelle \\ ' Anthropic\\'s Claude vulnerable to \\'emotional manipulation\\' |
Texte |
La sécurité des modèles AI ne va que jusqu'à présent Sonnet Claude 3.5 d'Anthropic \\, malgré sa réputation en tant que l'un des modèles d'IA génératifs les mieux comportés, peut toujours être convaincu d'émettre la parole de haine raciste et les logiciels malveillants.…
AI model safety only goes so far Anthropic\'s Claude 3.5 Sonnet, despite its reputation as one of the better behaved generative AI models, can still be convinced to emit racist hate speech and malware.… |
Notes |
★★★
|
Envoyé |
Oui |
Condensat |
anthropic behaved better can claude convinced despite emit emotional far generative goes hate its malware manipulation model models one only racist reputation safety sonnet speech vulnerable |
Tags |
Malware
|
Stories |
|
Move |
|