A OpenAI anunciou um marco importante no treinamento de modelos de inteligência artificial: o alinhamento deliberativo. Essa nova abordagem promete elevar os padrões de segurança, garantindo respostas mais seguras e contextualizadas, além de superar limitações de métodos anteriores.
O que é o Alinhamento Deliberativo?
A técnica de alinhamento deliberativo ensina modelos de linguagem (LLMs) a compreender diretamente as especificações de segurança escritas por humanos e a raciocinar sobre elas antes de responder. Isso inclui:
- Análise passo a passo (Chain-of-Thought): O modelo reflete sobre os prompts dos usuários e identifica políticas relevantes antes de gerar uma resposta.
- Adesão precisa às políticas de segurança: Sem depender de grandes conjuntos de exemplos rotulados por humanos, o modelo aprende a raciocinar diretamente sobre especificações de segurança.
O primeiro modelo a adotar essa técnica, o1, demonstrou resultados impressionantes em benchmarks internos e externos, superando modelos como GPT-4o e Claude 3.5.
Como Funciona o Processo
A abordagem combina supervisão baseada em processos e resultados:
- Treinamento inicial: O modelo é treinado para ser útil, sem incluir dados de segurança.
- Criação de dataset: Gera-se um conjunto de dados onde o modelo associa especificações de segurança aos prompts.
- Aprimoramento supervisionado (SFT): O modelo aprende tanto o conteúdo das políticas quanto como raciocinar sobre elas.
- Reforço por aprendizado (RL): Com um modelo de recompensa, o sistema é ajustado para usar o raciocínio de maneira eficaz.
Por que é Revolucionário?
Comparado a métodos anteriores, como o RLHF (Reforço com Feedback Humano), o alinhamento deliberativo permite:
- Raciocínio contextual em tempo de inferência.
- Generalização para cenários de segurança novos ou imprevisíveis.
- Maior eficiência no treinamento com dados gerados automaticamente.
Os resultados mostram que o modelo o1 melhora a capacidade de recusar prompts maliciosos enquanto é mais permissivo em consultas benignas, saturando os testes de segurança mais desafiadores.
O que vem por aí?
A OpenAI está convidando pesquisadores de segurança para explorar essas inovações por meio de um programa de acesso antecipado, com inscrições abertas até 10 de janeiro de 2025. O objetivo é fomentar novas ideias, identificar riscos emergentes e desenvolver avaliações mais robustas para modelos futuros.