Mit Wortwiederholungs-Trick: ChatGPT läßt sich Trainingsdaten entlocken
Die Version 3.5 des populären Chatbots ChatGPT verrät mit einem bestimmten Prompt ihre geheimen Trainingsdaten, wie Wissenschaftler herausgefunden haben.
TIL https://www.jailbreakchat.com/ is a website that collects prompt injection attacks for LLMs, i.e. getting the language model to do stuff that is not allowed by inserting malicious prompts.
Prompt Injection: Marvin von Hagen trägt vor, wie er Bing Chat austrickste
Marvin von Hagen fand einen beachtlich cleveren Prompt für Bing Chat: Dieser gab Herstelleranweisungen preis. In einem Vortrag erklärt der Student den Trick.
“It’s really frustrating: I want to build cool things on top of LLMs, but a lot of the more ambitious things I want to build—the things that other people are enthusiastically exploring already—become a lot less interesting to me if I can’t protect them against being exploited.” - @simon