Your trial period has ended!
For full access to functionality, please pay for a premium subscription
Message
Был найден способ взломать практически любую популярную нейронку.

Эксперты в области безопасности ИИ из HiddenLayer разработали технику, с помощью которой можно обойти встроенные защитные механизмы всех крупных языковых моделей (LLM), позволяя создавать вредоносный и опасный контент, а также извлекать системные инструкции.

Нужно просто замаскировать запрос под файл конфигурации (например, XML/JSON). ИИ «думает», что это внутренняя системная инструкция, и игнорирует свои стандартные ограничения. Также используется ролевая игра и иногда leet speak (шифрование текста цифрами: б0мба, 0pyжu3 и т.д ).

Это реальные уязвимости в способах обучения нейронок, а также недостатки в их архитектуре защиты.

Метод универсален: работает как на ChatGPT, так и на DeepSeek, Gemini, Claude, Copilot, Llama и др. Даже более защищённые последние версии моделей поддаются при небольших модификациях.

Естественно, это всё не советы, а предостережения. Не делайте так.

r/#LocalLLaMA
04/26/2025, 15:11
t.me/youknowds/8643
Similar message chronology:
Newest first
Similar messages not found