JA

Genai não pode escalar sem a IA responsável

por= Eric Jesse, Vanessa Lyon, Maria Gomez e Krupa Narayana Swamy
Artigo 12 Min Read

Teclas de chave

Os agentes da Genai precisam lidar com tarefas de forma responsável, com precisão e rapidamente em vários idiomas, abordando potencialmente milhões de especificações em centenas de milhares de produtos. Fatores. Salvo para
  • BCG’s responsible AI framework for GenAI spans designing, coding, deployment, and operation.
  • For each element of the framework, we describe the steps required as well as the challenges and success factors.
  • We draw upon lessons from implementing this framework at global industrial goods companies, including the deployment of a GenAI agent that supports queries from more than 20,000 customers daily.
Saved To Meu conteúdo salvo
Download Artigo

Agentes generativos de IA podem melhorar significativamente o suporte ao cliente para uma ampla gama de produtos e processos, atendendo às diversas necessidades de muitos usuários. Inicialmente, eles serviram como um diferenciador, como acelerar processos complexos e fornecer atendimento ao cliente 24/7. Mas agora esses aplicativos estão rapidamente se tornando essenciais para manter a competitividade e em breve serão considerados participações de tabela no cumprimento de metas de produtividade e expectativas dos clientes. Por exemplo, o chatbot de uma concessionária de carro ofereceu erroneamente um veículo em tamanho real por US $ 1. Empresas e agências governamentais também correm o risco de agentes de genai errar políticas.

Even so, notable mishaps highlight the challenges in setting up such systems effectively. For example, a car dealership's chatbot erroneously offered a full-size vehicle for $1. Companies and government agencies are also at risk of GenAI agents misstating policies.

To fully realize the vast potential of Genai Ao mitigar seus riscos, as empresas devem implementar os princípios de AI responsável (RAI). Os agentes da Genai precisam lidar com tarefas de forma responsável, precisa e rapidamente em vários idiomas, abordando potencialmente milhões de especificações em centenas de milhares de produtos. Os desafios podem ser intensificados por atualizações frequentes de produtos e preços dinâmicos. Como os agentes operam em um ambiente complexo, eles podem não ser capazes de garantir que o sistema tenha a proficiência necessária (gera consistentemente o valor pretendido); segurança (evita saídas nocivas ou ofensivas); igualdade (promove justiça na qualidade de serviço e acesso igual aos recursos); segurança (salvaguardas dados e sistemas confidenciais contra maus atores); e conformidade (adere a padrões legais, políticos, regulatórios e éticos relevantes). Nossa metodologia começa com o desenvolvimento inicial, seguido de testes abrangentes de ponta a ponta antes da implantação de cada novo lançamento de recursos. Depois que o agente é implantado na produção, os testes contínuos são essenciais para monitorar continuamente o desempenho para alterações que podem surgir das atualizações para o ecossistema de tecnologia.

BCG has designed a robust framework for applying RAI across the application life cycle when building and deploying GenAI agents at scale. Our methodology begins with initial development, followed by comprehensive end-to-end testing before deployment of each new feature release. Once the agent is deployed in production, ongoing testing is essential to continually monitor performance for changes that may arise from updates to the technology ecosystem.

To illustrate the success factors and challenges, we draw upon our experience implementing this framework at global industrial goods companies. These deployments included a GenAI agent that supports sales queries from more than 20,000 customers daily.

GenAI Raises the Stakes for RAI

RAI is a holistic framework designed to ensure that AI Os sistemas oferecem os benefícios desejados, permanecendo consistentes com os valores corporativos. As organizações minimizam o risco pelas maneiras pelas quais projetam, codificam, testam, implantam e monitoram esses sistemas.

Companies apply the RAI framework to build and manage AI systems on the basis of such Princípios Como responsabilidade, justiça, interpretabilidade, segurança, robustez, privacidade e segurança. A natureza probabilística da IA ​​cria oportunidades para falsos positivos e negativos, tornando a adesão a esses princípios essenciais para promover a transparência e abordar vieses que podem distorcer os resultados. Os lapsos bem divulgados incluem contratação tendenciosa, empréstimos discriminatórios e vazamentos de dados confidenciais corporativos e de consumidores. Esses problemas já eram complexos para um modelo de IA que alavancava 20 parâmetros, inferências estáveis ​​e saídas quantitativas. A maior sofisticação de Genai aumentou o desafio exponencialmente. Além disso, a natureza conversacional de Genai permite a troca de tipos mais variados de informações entre aplicativos habilitados para Genai e consumidores. As organizações devem proteger suas próprias informações confidenciais, bem como as dos consumidores.

The responsible use of AI has long been under the spotlight. Well-publicized lapses include biased hiring, discriminatory lending, and leaks of sensitive corporate and consumer data. These issues were already complex for an AI model leveraging 20 parameters, stable inferences, and quantitative outputs. The greater sophistication of GenAI has increased the challenge exponentially. On top of this, the conversational nature of GenAI allows for the exchange of more varied types of information between GenAI-enabled applications and consumers. Organizations must protect their own sensitive information as well as that of consumers.

Os modelos AI evoluíram a partir de alguns parâmetros com aprendizado de máquina, para dezenas de milhares com aprendizado profundo e agora para milhões. (Ver Anexo 1.) Os sistemas Genai são estocásticos e dinâmicos e, portanto, não determinísticos, potencialmente produzindo respostas diferentes às mesmas questões ao longo do tempo. Esses sistemas podem conversar em linguagem natural com muitos usuários simultaneamente, criando muito mais cenários para uso indevido-incluindo erros, informações errôneas, linguagem ofensiva ou que reforça estereótipo e propriedades intelectuais (IP). No caso de agentes genai de conversação, como chatbots, o risco de erro é aumentado pelo fato de o agente interagir diretamente com os clientes e fazer declarações, compromissos ou transações por motivos errados. Regulamentos. (Consulte o Anexo 2.)

Such AI system lapses may seem like one-off errors, but the implications may include alienation of customers, damage to the brand, regulatory infractions, or financial impacts. In the case of conversational GenAI agents, such as chatbots, the risk of error is heightened by the fact that the agent interacts directly with customers and may make statements, commitments, or transactions on erroneous grounds.

Using an RAI framework across the full application life cycle ensures that companies build trustworthy GenAI-based applications by governing their data, protecting company IP, preserving user privacy, and complying with laws and regulations.

Applying RAI Across the Full Application Life Cycle

Our RAI framework spans the entire GenAI life cycle, from design to operation and monitoring. (See Exhibit 2.)

Design. Esse mapeamento avalia os requisitos para apoiar os casos de uso e os problemas em potencial que podem afetar a capacidade do aplicativo de ser proficiente, seguro, equitativo, seguro e compatível com regulamentos ou políticas. Considere os tipos de perguntas que o agente responderá, os dados subjacentes necessários e as informações necessárias dos usuários antes que uma resposta seja gerada. Considere também como os valores corporativos e os princípios da IA ​​se aplicarão a cada caso de uso e serão incorporados por esse agente - por exemplo, pense no que a justiça significa nesse contexto para todos os usuários. Além disso, concentre -se em como apresentar informações e atualizar os dados subjacentes. Por exemplo, se uma empresa decidir não apoiar as comparações de concorrentes, poderá definir um prompt inicial do sistema como este: "Como representante de vendas para os widgets de Steve, você sempre deve recusar comparar nossos produtos com os de outras empresas" Begin by mapping the use cases the application will support and gaining a comprehensive view of the risk landscape within which it will operate. This mapping evaluates the requirements to support the use cases and the potential issues that could affect the application’s capability to be proficient, safe, equitable, secure, and compliant with regulations or policies. Consider the types of questions that the agent will answer, the underlying data needed, and the information required from users before a response is generated. Also consider how corporate values and AI principles will apply to each use case and be embodied by such an agent—for example, think through what fairness means in this context for all users.

Design technical, process, or policy guardrails to minimize the likelihood of each identified risk and evaluate the residual risks that may need to be accepted. In addition, focus on how to present information and refresh the underlying data.

The use cases supported, and those that are not, determine which prompts and related guardrails to establish. For example, if a company decides not to support competitor comparisons, it might set an initial system prompt such as this: "As a sales representative for Steve’s widgets, you should always decline to compare our products with those of other companies."

Os casos de uso também fornecem a base para identificar os dados necessários para a criação do modelo e o modelo e o número de dados é necessário para criar os dados necessários para criar o modelo de que os dados necessários para criar os dados necessários para criar os dados necessários para criar os dados necessários para criar os dados necessários para criar os dados necessários para criar os dados necessários para criar os dados necessários para criar os dados necessários para criar os dados necessários para criar os dados necessários para criar os dados necessários para criar os dados necessários para criar os dados necessários para criar os dados necessários para criar os dados necessários. Por exemplo, se as cores do produto disponíveis em 2024 diferentes daquelas em 2023, os dados subjacentes devem ser atualizados de acordo. Quaisquer imprecisões ou vieses nos dados subjacentes serão refletidos na experiência do cliente, seja na forma de desempenho ruim do sistema ou os danos resultantes de um estereótipo reforçado. Inscreva -se

Subscribe to our Artificial Intelligence E-Alert.

Responder com precisão As consultas também exige saber quando informações suficientes foram coletadas dos consumidores. Por exemplo, para um cliente automotivo que usa preços baseados em localização, projetamos o LLM para solicitar um código postal antes de fornecer um preço se a localização do cliente ainda não for conhecida. Da mesma forma, para fornecer com precisão as especificações do produto, o LLM solicita o ano modelo do carro. Para consultas de vendas, projetamos -a para fornecer especificações para o último ano do modelo por padrão. No entanto, incluímos estruturas de dados que poderiam fornecer as especificações corretas para diferentes anos de modelo, se solicitado pelo cliente. Nossa metodologia aborda de forma abrangente. (Veja o Anexo 3.) Os exemplos incluem o seguinte:

Code. Throughout the development process, creating GenAI agents presents unique challenges beyond traditional software development. Our methodology comprehensively addresses these. (See Exhibit 3.) Examples include the following:

Teste e avalie. Além das avaliações tradicionais de software, como testes de penetração e carga, implemente as estruturas de teste e avaliação especificamente direcionadas a Genai. O escopo deve incluir proficiência em aplicação, segurança, patrimônio, segurança e conformidade. Como esses sistemas são de uso geral e não determinísticos, não é possível testar todas as entradas e saída. Em vez disso, priorize os testes onde existem os maiores riscos. As suítes de teste devem ser extensas. Eles podem ser desenvolvidos utilizando registros de chamadas, transcrições de bate -papo, o conhecimento da equipe de produtos e a Genai. Os testes devem incluir a equipe vermelha baseada em humanos, bem como testes e avaliação automatizados usando um

GenAI tests should ensure high-quality responses and behaviors that are accurate and aligned with business objectives. Test suites should be extensive. They can be developed by utilizing call logs, chat transcripts, the product team’s knowledge, and GenAI. Testing should include human-based red teaming as well as automated testing and evaluation using a Kit de ferramentas como o BCG X's Artkit . Além disso, o teste do usuário deve ser realizado como parte de uma estratégia de liberação incremental. Recomendamos um processo de teste Genai em três etapas. (Consulte o Anexo 4 e “Um processo de teste em três etapas.”)

Um processo de teste de três etapas || .. 3840
The following steps will help to ensure that GenAI applications perform responsibly and accurately:

1. Gerar o conjunto de dados. Crie um conjunto de dados compreendendo uma lista de perguntas, incluindo um conjunto de testes de ouro para avaliar a proficiência. A lista deve apresentar perguntas esperadas, como "Qual é a altura do produto A?", Além de questões fora do tópico, como "Quem é seu cantor favorito?" Além disso, desenvolva um conjunto de testes adversários que, além da verificação de casos de uso, testes para possíveis problemas relacionados ao desempenho do agente. Isso inclui a aceitação de informações pessoalmente identificáveis; o potencial de vazar dados IP, dados de origem ou código; e a geração de respostas inadequadas, discriminatórias ou abusivas. (Consulte a primeira exposição, abaixo.)

 

Avançar, Expanda a lista inicial de perguntas de duas maneiras. Primeiro, empregue um LLM generativo para criar uma ampla gama de perguntas semelhantes ou as mesmas perguntas com frases diferentes. Em seguida, à medida que o aplicativo entra na produção, continue expandindo a lista com base nas consultas observadas do cliente e nos casos de uso adicionais incorporados ao aplicativo. Descobrimos que as listas de perguntas completas para liberações mínimas viáveis ​​de produtos geralmente contêm 700 a 1.200 consultas.

2. Execute testes. Os testes devem ser realizados por uma combinação de seres humanos e scripts. Os seres humanos podem agregar um valor imenso na avaliação de casos de uso de alto risco ou áreas onde as respostas carregam riscos significativos. Esses testadores tradicionais de garantia da qualidade devem desafiar e procurar confundir ou enganar o modelo. Alimente as idéias obtidas com esses testadores no conjunto de dados mestre para identificar e abordar qualquer vulnerabilidade. O conjunto de dados mestre deve ser executado regularmente no aplicativo Genai usando um script ou aplicativo RAI. Registre as respostas e colete informações detalhadas sobre o desempenho do aplicativo, os fluxos de trabalho acionados e os dados e incorporação utilizados.

A solução e a arquitetura de teste são críticas, pois um script de teste completo pode levar de duas a três horas para ser executado se não for configurado para executar na execução paralela. Quando projetado para apoiar a execução paralela, o teste do conjunto completo de 700 a 1.200 testes leva menos de cinco minutos.

3. Revise as respostas. Avalie as respostas geradas pelo aplicativo em vários critérios. (Veja a segunda exposição, abaixo.) Respostas específicas de alto valor podem ser avaliadas manualmente. Para avaliar um grande número de resultados com eficiência, considere o uso de um avaliador LLM equipado com as ferramentas necessárias. Esse avaliador pode validar rapidamente um grande conjunto de resultados de teste. Um ser humano avalia esses resultados com os mais altos níveis de incerteza. Descobrimos que os testes periódicos de humanos em loop podem ser inestimáveis. Esses erros estavam presentes em todos os ativos digitais. No entanto, eles se tornaram muito mais visíveis para clientes e funcionários de campo quando os dados de gerenciamento de informações do produto estavam desatualizados ou incorretos, ou quando as imagens de gerenciamento de ativos digitais foram mapeadas incorretamente para produtos. Esses erros não foram prontamente capturados em testes automatizados porque os dados estavam corretos de acordo com as fontes de dados fornecidas. Portanto, foram necessários testes e verificações humanos no loop para identificá-los.


One of the biggest sources of errors in an application we tested was the human process of updating the enterprise data that the agent utilizes as its source of truth. These errors were present across all digital assets. However, they became far more visible to customers and field employees when product information management data was outdated or incorrect, or when digital asset management images were incorrectly mapped to products. Such errors were not readily caught in automated testing because the data was correct according to the provided data sources. Human-in-the-loop testing and checks were therefore necessary to identify them.

O processo de teste não é um evento único. É altamente iterativo, com novos aprendizados impulsionando a cobertura expandida para garantir que a solução atenda aos requisitos de negócios para resposta e riscos.

Implante e libere. Inicialmente, crie código em um ambiente de desenvolvimento. Depois que o código estiver pronto para integração com outros elementos da liberação, faça a transição para um ambiente de estadiamento para testes de engenharia. A partir daí, mova o código para a fase de garantia da qualidade, onde as partes interessadas dos negócios validam seu desempenho antes de avança para a produção. Para apoiar o desenvolvimento paralelo e o teste de recursos por várias equipes, pode ser necessário utilizar várias instâncias de cada nível ambiental. Antes da implantação, verifique se o aplicativo usa as mais recentes versões de software para se beneficiar dos aprimoramentos de segurança e confirmar a compatibilidade da versão. Os sistemas devem ser projetados para lidar com implantações incrementais, permitindo respostas rápidas com base nas experiências dos clientes da vida real e no comportamento do agente nos cenários de uso reais. Após o desenvolvimento e o lançamento do MVP na produção, avaliamos novas versões de aplicativos, comparando o valor dos recursos que eles fornecem ou permitem com o esforço e o retrabalho necessários para implementá -los. Se a criação de uma nova versão requer reescrita de código significativa sem apresentar vantagens e valor à solução comercial, não há motivo atraente para atualizar. To ensure security, utilize a multilevel development, staging, quality assurance, and production environment in the deployment and release process. Initially, build code in a development environment. Once the code is ready for integration with other elements of the release, transition to a staging environment for engineering testing. From there, move the code to the quality assurance phase, where business stakeholders validate its performance before it progresses to production. To support parallel development and testing of features by various teams, it may be necessary to utilize multiple instances of each environmental level.

Advancing the code through these environments facilitates verification of interoperability and validation of security measures, such as rate limiting to thwart the use of bots and secure APIs to prevent unauthorized use. Before deployment, ensure that the application uses the latest software versions to benefit from security enhancements and confirm version compatibility. The systems should be designed to handle incremental deployments, enabling quick responses based on real-life customer experiences and the agent’s behavior in actual use scenarios.

In practice, we use the latest stable version of an application during minimum viable product development. After MVP development and release to production, we evaluate new versions of applications by comparing the value of the features they provide or enable with the effort and rework required to implement them. If creating a new version requires significant code rewriting without presenting advantages and value to the business solution, there is no compelling reason to upgrade.

Opere e monitore. O monitoramento de desempenho sustentado é crucial para Genai, devido à deriva que o LLMS pode experimentar ao longo do tempo e as mudanças repentinas de desempenho que podem ocorrer quando há atualizações de modelos fundamentais. O monitoramento consistente e analisável permite uma análise rápida do comportamento de um agente na vida real. Utilize o feedback para ajustar os corrimãos, fluxos de trabalho e outras estratégias de implementação e garantir que as respostas atendam aos padrões desejados. Recomendamos três níveis de monitoramento de aplicativos da Gen AI. (Consulte o Anexo 5 e “Monitoramento em três níveis.”)

Monitoramento em três níveis
== O monitoramento dos aplicativos Genai nos três níveis a seguir ajuda a manter o desempenho consistente:

1. Monitoramento de prompt e resposta. Para realizar essa avaliação, colete conjuntos de dados reais gerados pelo usuário no histórico de conversas LLM, bem como as consultas do conjunto de testes de desenvolvimento. Utilize um avaliador LLM para avaliar as respostas com base em vários critérios, incluindo alucinação, relevância, resumo e viés. Para ajudar na análise dos resultados, gerar uma pontuação de avaliação para cada critério. Para prompts com pontuações de avaliação mais baixas, implemente um processo humano no circuito para avaliar e ajustar os prompts, dados e corrimões conforme necessário. Monitor prompts and responses by using system logs to evaluate the quality of the GenAI application across different flows and benchmark them. To conduct this evaluation, collect real user-generated data sets from the LLM conversation history as well as the queries from the development test suite. Utilize an evaluator LLM to assess the responses based on various criteria, including hallucination, relevancy, summarization, and bias. To aid in analyzing the results, generate an evaluation score for each criterion. For prompts with lower evaluation scores, implement a human-in-the-loop process to assess and adjust the prompts, data, and guardrails as necessary.

Esses testes podem ser definidos para executar continuamente contra o uso do cliente. Periodicamente, o conjunto de testes completo do desenvolvimento também deve ser executado contra a solução para garantir o desempenho desejado em todo o espectro de usos suportados e não suportados.

2. Auditoria de mensagens. Isso implica analisar consultas semelhantes para identificar padrões e possíveis desvios nas respostas do aplicativo Genai. Compare os avisos do usuário e suas resumos para avaliar a eficiência e a precisão do aplicativo Genai. Os painéis de audição de log podem ser configurados para avaliar as respostas e identificar problemas. Conduct human-based audits or reviews of messages that have violated assumptions. This entails analyzing similar queries to identify patterns and possible drifts in the responses of the GenAI application. Compare user prompts and their summarizations to assess the efficiency and accuracy of the GenAI application. Log-auditing dashboards can be set up to assess responses and identify issues.

3. Monitoramento funcional. Monitore o desempenho do aplicativo e a experiência do usuário utilizando painéis de saúde do sistema. Acompanhe a latência para identificar operações complexas e potenciais gargalos. Utilize as principais métricas, como as despesas de token, como um indicador do custo computacional das consultas para o aplicativo Genai. Esses ajustes respondem às mudanças de desempenho causadas por rápidos avanços técnicos e atualizações do treinamento e dos corrimãos modelo dos provedores.

Utilizing the foundational LLMs from leading providers—including Google, Microsoft, OpenAI, and Anthropic—we found that minor updates to our prompts were necessary each month. These adjustments respond to performance changes caused by rapid technical advancements and updates to the providers' model training and guardrails.

Coloque a base do fundamento. Aplique esses insights à implementação dos corrimãos, instruções e recomendações de segurança necessárias. Estabeleça uma estrutura de monitoramento contínua que se integra perfeitamente aos conjuntos de ferramentas existentes, permitindo que as equipes tomem medidas proativas. Defina padrões para refinar o GuardRails e solicitações para garantir a conformidade com os princípios do RAI.

Introdução

Para realizar as vantagens e o valor de Genai, evitando os riscos no campo em evolução, as empresas devem iniciar várias ações relacionadas a RAI: ​​


GenAI promises immense value to companies that can utilize it responsibly and accurately. But companies must update their established development practices in order to maintain control of the output of this powerful technology. To capture the value, they need an RAI framework tailored to the complexities of developing and operating GenAI-enabled agents. By mobilizing all the necessary skills and tools, companies can ensure that this new generation of applications leverages and presents data appropriately and provides the desired value for an effective and secure customer experience.

Authors

Managing Director & Partner

Eric Jesse

Diretor Gerente e Parceiro
Denver

Diretor Gerente e Parceiro Sênior

Vanessa Lyon

Diretor Gerente e Parceiro Sênior
Nova Iorque

Vice -Presidente, Engenharia

Maria Gomez

Vice -Presidente de Engenharia
BCG X - Berlim

Principal Principal TI Arquiteto

Krupa Narayana Swamy

Platinion Principal TI Arquiteto
Atlanta

Conteúdo relacionado

Salvo para Meu conteúdo salvo
Download Artigo
= Salvo para Meu conteúdo salvo
Download Artigo