Simulação levou LLMs a criarem jailbreaks

A empresa de segurança cibernética Cato Networks descobriu uma nova técnica de jailbreak LLM que se baseia em “engenharia narrativa” para convencer um modelo de IA geral a se desviar das operações restritas. Chamada de Mundo Imersivo, a técnica é simples: em um mundo virtual detalhado onde o hacking é a norma, o LLM é […]

Fonte

Adicionar aos favoritos o Link permanente.