para todo o seu potencial poderoso, AI generativa (genai) pode gerar saídas incorretas, produzir conteúdo nocivo ou ofensivo e expor as organizações a novas vulnerabilidades de segurança. Antes de lançar serviços movidos a Genai, as organizações devem realizar testes e avaliação abrangentes para identificar e mitigar esses riscos. Essa avaliação deve confiar em testadores humanos aumentados por plataformas automatizadas .
Mas, mesmo com testes e avaliação abrangentes, o risco de falha do sistema com Genai nunca será zero. Os sistemas Genai são complexos e os resultados que geram não são determinísticos. Os seres humanos não podem rastrear a entrada para a saída em todas as etapas do sistema. Os riscos residuais, incluindo aqueles que nunca foram antecipados ou identificados, sempre permanecerão e poderão se materializar a qualquer momento.
Abordagens tradicionais de previsão e controle, como teste e avaliação, ficarão aquém. As organizações precisarão sentir rapidamente e responder às falhas quando ocorrerem. Eles precisarão de uma estratégia abrangente de monitoramento, escalada, resposta e recuperação. Esse intervalo é um recurso, não um bug. E embora esses recursos sejam uma fonte essencial de valor, eles tornam impossível antecipar todos os riscos para um produto Genai. Mesmo que fosse possível mapear todo o cenário de risco, o custo para testar minuciosamente para cada risco identificado seria proibitivo.
Why GenAI Is Prone to Failure
Two strengths of GenAI create novel challenges for product owners and senior leaders.
- General Capabilities. GenAI systems can perform a wide range of tasks, including many that are still emerging. This range is a feature, not a bug. And while these capabilities are a key source of value, they make it impossible to anticipate every risk for a GenAI product. Even if it were possible to map the entire risk landscape, the cost to thoroughly test for every identified risk would be prohibitive.
- saída não determinística. sistemas produzem respostas sutilmente diferentes para a mesma pergunta. Embora esse recurso forneça respostas envolventes e criativas, também significa que o sistema produzirá respostas inconsistentes ou diferem materialmente das intenções dos proprietários de produtos. O volume de teste necessário para detectar esses comportamentos geralmente é proibitivo de tempo ou custo.
Riscos residuais relacionados a esses dois desafios de Genai sempre existirão e são significativamente maiores que os riscos de sistemas que produzem respostas mais previsíveis e consistentes. À medida que a complexidade dos sistemas Genai cresce, os proprietários de produtos também devem estar vigilantes para esses e outros riscos imprevistos ou não identificados.
Residual risks, including those that were never anticipated or identified, will always remain and could materialize at any time.
Como abordar a realidade da falha
As organizações precisam estar preparadas para que seus sistemas genai falhem. Por exemplo, o que você fará se seus sistemas depreciarem os produtos de um concorrente, fazer um comentário difamatório ou produzirem respostas que violem os regulamentos?
Embora seja importante testar seus sistemas Genai antes da implantação, isso não será suficiente para gerenciar efetivamente os riscos. As organizações precisam de um plano de resposta para todos os produtos que identificam como:
Detecte falhas. As organizações devem monitorar continuamente o desempenho dos sistemas. Quando um sistema está operando fora dos parâmetros normais - por exemplo, gerando saídas suspeitas - pode indicar uma falha. Usuários e funcionários precisam de um mecanismo para relatar problemas, e as empresas devem monitorar as conversas nas mídias sociais quanto a questões. A equipe e teste vermelhos periódicos também podem ajudar a identificar problemas sutis ou emergentes que não foram detectados ou imprevistos.
Comunique quaisquer problemas à organização e aos usuários. Relevante Participes, da liderança às equipes de desenvolvimento, precisam saber sobre uma falha potencial assim que ocorrer. Deve haver mecanismos de push (e-mail e mensagens) e puxar (painéis em tempo real) para permitir que as partes interessadas internas respondam de maneira uniforme e rápida. Diferentes organizações adotarão diferentes abordagens sobre se e como informarão seus usuários de uma falha. Algumas empresas corrigem o problema, mas não dizem aos usuários. Outros corrigem o erro e notificam os usuários que chamaram a atenção deles. Outros ainda notificam todos os usuários. Todas essas abordagens são válidas. Uma resposta ad hoc, sede da calça, não é. As empresas devem fazer uma estratégia de comunicação coordenada para partes interessadas internas e externas integrais aos seus planos de resposta.
Notifique os reguladores e outros grupos críticos de partes interessadas. Regulamentos emergentes de IA requerem divulgações de não conformidade. Antes de lançar qualquer sistema Genai, as organizações precisam concordar com os líderes seniores que devem estar envolvidos e um processo formal de divulgação. Quando ocorre uma falha que justifica a divulgação, uma divulgação bem executada para reguladores e outras partes interessadas incuta confiança e demonstra um compromisso de fazer a coisa certa.
Debug and correct the issue. Sistema Mecanismos de registro, ferramentas de depuração e outros mecanismos podem ajudar a descobrir as causas principais de um problema. Uma vez identificado um problema, ele deve ser corrigido sem afetar a qualidade geral ou introduzir novos riscos. As organizações precisam então um plano para testar minuciosamente o sistema atualizado antes da implantação. Eles devem estabelecer uma ordem clara de operações e direitos de decisão. E eles precisam de uma estrutura ou abordagem geral para decidir quando implementar uma solução de pontos temporários e quando um sistema precisa ser levado offline para criar uma correção mais abrangente.
What will you do if your systems disparage a competitor’s products, make a libelous comment, or produce responses that violate regulations?
Plano para resiliência operacional. Se, por exemplo, Genai estiver lidando com três quartos das respostas de atendimento ao cliente, qual é o plano se o sistema Genai precisar ser retirado por várias semanas para corrigir um problema? Esses planos são especialmente críticos em áreas altamente automatizadas onde a força de trabalho foi reduzida ou reimplantada. Após contabilizar os custos da resiliência operacional, a solução proposta pode não ser mais atraente. As organizations increasingly depend on GenAI and other systems for core business processes, they need contingency/resiliency plans to continue operating even at degraded levels. If, for example, GenAI is handling three-quarters of customer service responses, what is the plan if the GenAI system needs to be taken down for several weeks to fix an issue? These plans are especially critical in highly automated areas where the workforce has been reduced or redeployed. After accounting for the costs of operational resilience, the proposed solution may no longer be attractive.
As organizations increasingly depend on GenAI and other systems for core business processes, they need contingency/resiliency plans to continue operating even at degraded levels.
Assim como nos problemas de segurança cibernética, as organizações não devem esperar até que experimentem uma falha do produto da Genai em descobrir como minimizar as consequências. Executivos e equipes precisam desenvolver um plano de resposta durante os estágios iniciais do design do produto. Uma abordagem cuidadosa de senso e resposta pode alterar uma falha do produto de uma crise para um evento controlado que passa rapidamente sem danos à marca, perda de confiança do cliente ou infrações regulatórias. São abordagens complementares. Ambos são necessários. E, dada a pressa de adotar a Genai, muitas organizações podem não estar dando a eles a atenção que merecem abordar os riscos sistêmicos da Genai. Inscreva -se
Testing and evaluation and escalation response planning are not either/or components of responsible product development strategy. They are complementary approaches. They are both necessary. And given the rush to adopt GenAI, many organizations may not be giving them the attention they deserve to address the systemic risks of GenAI.