como suflés no forno e o clima no Monte Everest, AI generativa (Genai) exige vigilância. As empresas conseguem isso, mas suas precauções nem sempre são preventivas. Muitas organizações assumem que os seres humanos no circuito capturarão problemas e, à prova de falhas, eles implantarão Genai Carefree. No entanto, embora a supervisão humana seja crucial para Mitigando os riscos de Genai, Ainda é apenas uma parte de uma solução. E a abordagem típica - assinando as pessoas a revisar a produção - corra os riscos próprios. O problema é que as organizações dependem da supervisão humana sem Designing Supervisão humana. Eles têm boa intenção, mas não têm um bom modelo.
Esse modelo não é ilusório. Mas possui vários componentes que devem ser projetados ao lado do sistema Genai. Ele também precisa ser combinado com outros ingredientes -chave da vigilância de Genai, incluindo testes e avaliação, articulação clara de casos de uso (para garantir que os sistemas Genai não se desviem do uso pretendido) e do planejamento de respostas. Aceitar isso corretamente significa pensar sobre a supervisão humana no estágio de concepção e design do produto, quando as organizações estão construindo um caso de negócios para uma solução Genai. Completá -lo durante a implementação - ou pior, pouco antes da implantação - é tarde demais.
Human oversight works best—which means it actually works—when it is combined with system design elements and processes that make it easier for people to identify and escalate potential problems. It also needs to be paired with other key ingredients of GenAI vigilance, including testing and evaluation, clear articulation of use cases (to ensure that GenAI systems don’t deviate from their intended use), and response planning. Getting this right means thinking about human oversight at the product conception and design stage, when organizations are building a business case for a GenAI solution. Tacking it on during implementation—or worse, just prior to deployment—is too late.
Human oversight works best—which means it actually works—when combined with system design elements and processes that make it easier for people to identify and escalate problems.
A falha que geralmente falha
Uma das características únicas de Genai é que ele pode errar da mesma maneira que os seres humanos erram: criando conteúdo ofensivo, demonstrando viés e expondo dados sensíveis, por exemplo. Portanto, ter humanos verificar a saída pareceria uma contramedida lógica. Mas há várias razões pelas quais simplesmente colocar um humano no loop não é a segura de falhas que as organizações imaginam. Com efeito, o sucesso gera complacência. Os seres humanos revisarão os resultados iniciais, não verem erros e rapidamente confiarão no sistema. As avaliações se tornam superficiais ou até inexistentes. Considere algo tão comum quanto a navegação por GPS. Um motorista pode ter entrado em endereços centenas, até milhares de vezes e, em cada caso, o sistema os direcionou com sucesso para o destino. Portanto, quando o sistema os leva a um caminho não pavimentado, sem um marco esperado à vista, há uma inclinação natural para confiar que a tecnologia "sabe o que está fazendo" e continua tomando essas reviravoltas. Todos nós já ouvimos as histórias: os motoristas navegando até a beira da água ou passam por ela; viagens que continuam e continuam. Muitas vezes, há uma explicação simples, como um endereço que corresponde a vários locais (pense em 15 Main Street) ou no trabalho rodoviário ainda não refletido no software. Mas o histórico do sistema criou uma hiperconfiança em seus recursos. E intervenções vitais nunca aconteceram.
- Automation Bias. In effect, success breeds complacency. Humans will review initial outputs, see no errors, and quickly come to trust the system. Appraisals becomes cursory or even nonexistent. Consider something as commonplace as GPS navigation. A driver may have entered addresses hundreds, even thousands of times and in each case, the system successfully directed them to the destination. So when the system takes them on an unpaved path, without an expected landmark in sight, there’s a natural inclination to trust that the technology “knows what it’s doing” and keep taking those turns. We’ve all heard the stories: drivers navigating to the water’s edge or past it; trips that go on and on. Often there’s a simple explanation, such as an address that matches multiple locations (think 15 Main Street) or road work not yet reflected in the software. But the system’s track record created a hyperconfidence in its capabilities. And vital interventions never happened.
- contexto ausente. Os sistemas genai geralmente produzem saída sem nenhuma informação adicional, como evidências de suporte. Essa falta de contexto pode dificultar os revisores para determinar se a resposta é precisa ou apropriada. Como resultado, os revisores enfrentam duas opções: realizar pesquisas adicionais, cancelando quaisquer ganhos de eficiência do sistema ou, mais provavelmente, aceitam a saída pelo valor nominal, se parecer geralmente correto. A avaliação com base nas vibrações em vez de fatos não é uma abordagem viável de mitigação de risco.
- Lack of Counterevidence. Mesmo quando os sistemas fornecem evidências de suporte, essas informações justificam apenas por que a saída está correta. Poucos sistemas também apresentam evidências contrafactuais. Portanto, enquanto os revisores veem o caso em favor da saída, eles não veem o caso contra a saída. Considere uma solução Genai que analisa se os aplicativos de permissão estão concluídos. O sistema produz uma resposta "sim" porque vê que um aplicativo e os dois documentos de suporte necessários foram arquivados. O que o sistema também deve compartilhar é que um dos documentos de suporte pode estar incompleto.
- Uma estrutura desincentiva. Genai é frequentemente empregado para impulsionar a eficiência. Sistemas como co-pilotos, chatbots e autoatendimento do cliente têm tudo a ver com simplificar processos e aumentar a produtividade. Mas a avaliação minuciosa da saída Genai leva tempo - em muitos casos mais do que os designers do sistema imaginados quando eles definem metas de eficiência. Os gerentes geralmente são mantidos nessas metas, criando pressão sobre as equipes, destinadas ou não, para manter as eficiências chegando. Preocupados com as repercussões negativas da desaceleração das coisas, é provável que as pessoas realizem apenas revisões superficiais das saídas do sistema. Muitos sistemas Genai não têm mecanismos para sinalizar as respostas que o usuário acredita estar incorreto, levando à incerteza sobre o que fazer a seguir. Mas um problema ainda maior, talvez, é o ceticismo geral que geralmente permeia o processo de revisão. Há uma suposição de que o sistema está certo e qualquer pessoa que afirme o contrário tenha um caso sólido. Os revisores geralmente precisam tomar medidas administrativas tediosas para justificar sua crença de que a resposta está errada. E isso supõe que exista um processo de escalação. Algumas organizações podem ter uma política que exige que os usuários aceitem a saída. O conhecimento sobre como o genai funciona - suas capacidades e limites - podem variar muito, mesmo dentro de uma única organização. Hype, combinado com a natureza em evolução de Genai, geralmente distorce as percepções. Como resultado, muitos usuários o veem como uma tecnologia quase mágica e se adivinham antes de questionar o sistema Genai quando virem um resultado que não parece muito certo.
- Escalation Roadblocks. Many GenAI systems lack mechanisms to flag responses that the user believes are incorrect, leading to uncertainty about what to do next. But an even bigger problem, perhaps, is the general skepticism that often permeates the review process. There’s an assumption that the system is right and anyone claiming otherwise had better have a rock-solid case. Reviewers often need to take tedious administrative steps to justify their belief that the response is wrong. And that’s assuming an escalation process even exists. Some organizations may have a policy requiring that users accept the output.
- Misunderstanding GenAI Capabilities. Knowledge about how GenAI works—its capabilities and limits—can vary wildly, even within a single organization. Hype, combined with the evolving nature of GenAI, often skews perceptions. As a result, many users view it as an almost magical technology and will second-guess themselves before questioning the GenAI system when they see a result that doesn’t seem quite right.
- focando na precisão, mas não no escopo. More than with other technologies, GenAI can be taken “off track” if designers focus on what the system should do but not also on what it should not do. Output might be technically correct yet still “bad” if the system deviates from its intended use. Reviewers, however, aren’t always briefed on use case boundaries. Their focus is on accuracy. So out-of-scope responses often go unquestioned.
Evaluation based on vibes rather than facts isn’t a viable risk mitigation approach.
Supervisão humana por design
Juntos, esses fatores pintam uma imagem bastante sombria da supervisão humana. E esse é o ponto: simplesmente dizer às pessoas para cuidar da IA não é uma solução. Eventualmente, um problema passará despercebido - e depois atrairá muito aviso. Quando isso acontece, a defesa "Tivemos a supervisão humana" não vai voar com acionistas, clientes ou equipes de notícias acampadas do lado de fora do escritório. Inscreva -se
Subscribe to our Risk Management and Compliance E-Alert.
também não conte com ele voando com reguladores ou tribunais. Em dezembro de 2023, o Tribunal de Justiça da União Europeia emitiu uma opinião em um caso relacionado à avaliação da credibilidade dos indivíduos. O Tribunal constatou que as decisões de aprovar ou negar os pedidos de crédito, ostensivamente tomados pelos seres humanos, eram efetivamente automatizados, pois os humanos rotineiramente se baseavam apenas em pontuações geradas por algoritmos. Este foi um caso de viés de automação de livros didáticos. Simplificando: a supervisão não tinha sentido; A pontuação foi tudo o que importava. As empresas precisam tratar a supervisão como parte integrante da Genai, não um complemento. Eles precisam integrá -lo ao design do sistema e nos processos de negócios vizinhos e desenvolver os procedimentos e
Meaningful oversight requires more than putting humans in the loop. Companies need to treat oversight as an integral part of GenAI, not an add-on. They need to integrate it into the system’s design and surrounding business processes and develop the procedures and Cultura organizacional Isso permite que as pessoas identifiquem problemas - e façam algo sobre elas. Isso pode parecer uma tarefa onerosa, mas em nossa experiência, algumas práticas recomendadas podem orientar o caminho. As empresas precisam tratar a supervisão como parte integrante da Genai, não um complemento.
Meaningful oversight requires more than putting humans in the loop. Companies need to treat oversight as an integral part of GenAI, not an add-on.
Defina um processo em torno da supervisão humana. As diretrizes são melhores que as vibrações. Sem uma rubrica estruturada para avaliar as saídas do sistema, os revisores humanos são frequentemente deixados para confiar em palpites e intuição. Isso pode funcionar bem para detetives na televisão britânica, mas é menos do que o ideal para a supervisão de Genai. O que os humanos devem procurar na saída? Quais são as bandeiras vermelhas a serem consideradas? A idéia é desenvolver um livro de receitas para a pessoa que interage com o sistema que as mostra, passo a passo, como avaliar os resultados cuidadosamente. Como uma receita, o processo está bem definido e pode ser realizado de maneira consistente de uma pessoa para a outra.
também é importante especificar, de forma clara e precisamente, qualificações de revisores. Os avaliadores devem ter experiência relevante para a saída. Por exemplo, para um sistema que simplifica o processamento de reivindicações de seguro - que inclui tarefas técnicas como avaliar estimativas de reparo e reposição - um ajustador de reivindicações qualificado deve lidar com a revisão. A simplicidade funciona melhor. As empresas devem projetar etapas que não apenas permitam relatórios e respostas, mas também aceleram e acelerem. Em nossa experiência, organizações que
Human reviewers also need an effective way to escalate errors. Simplicity works best. Companies should design steps that not only enable reporting and response but spark and accelerate it. In our experience, organizations that Escala com sucesso ai dedicar 70% de seus esforços às pessoas e processos. Para a supervisão humana, isso significa identificar questões que podem impedir a escalada de erros, sejam métricas, políticas, incentivos ou todas as opções acima. E isso significa projetar soluções da Genai de maneira centrada no ser humano, envolvendo os usuários para criar recursos que facilitem a revisão de saída, como um botão "Relatório" incorporado na interface do usuário. Finalmente, o processo deve incluir um roteiro de como a organização responderá, em termos de escalada, remediação e comunicação, quando um revisor sinaliza uma potencial falha genai. As equipes de desenvolvimento da Genai são parceiros valiosos na supervisão humana. Ao considerar como impulsionar o processo de revisão ao tomar decisões de design, os desenvolvedores podem melhorar a precisão e a eficiência das avaliações. Descobrimos que um dos facilitadores mais poderosos é o contexto. Para esse fim, os sistemas Genai devem gerar um resumo simples de evidências "para" e "contra", dando aos revisores uma maneira mais clara de decidir se aceitar ou sinalizar a saída. Há um bônus adicional nessa abordagem: quando os usuários solicitam a um sistema Genai para apresentar o caso, Pro e Con, por sua resposta, a qualidade dessa resposta tende a melhorar. A supervisão humana não deve funcionar isoladamente, mas como parte de uma solução holística de mitigação de risco. Um componente-chave dessa abordagem integrada é um processo abrangente de teste e avaliação (T&E), que
Design systems to give evidence for and against outputs. GenAI development teams are valuable partners in human oversight. By considering how to drive the review process as they make design decisions, developers can improve the accuracy and efficiency of evaluations. We’ve found that one of the most powerful enablers is context. To that end, GenAI systems should generate a simple summary of both “for” and “against” evidence, giving reviewers a clearer way to decide whether to accept or flag output. There’s an added bonus with this approach: when users ask a GenAI system to make the case, pro and con, for its response, the quality of that response tends to improve.
Track response rejection rates. Human oversight shouldn’t work in isolation but rather as part of a holistic risk mitigation solution. A key component of this integrated approach is a comprehensive test-and-evaluation (T&E) process, one that Aproveita os pontos fortes dos humanos e da automação. T&E robusto dá Desenvolvimento do produto Equipe uma boa visão da precisão de um sistema. Uma vez que o sistema Genai estiver em campo, as organizações devem comparar a taxa de rejeição em uso com a taxa de rejeição observada durante a T&E. Taxas dramaticamente diferentes podem indicar que a supervisão humana não está funcionando corretamente (ou, igualmente criticamente, pode revelar problemas com o desempenho do sistema). Por exemplo, se você espera que o sistema produza respostas incorretas 20% do tempo, mas os revisores estão sinalizando apenas 5% da saída, a disparidade provavelmente indica viés de automação, pressão para revisar as saídas rapidamente ou um dos outros fatores que impedem a supervisão humana. A supervisão também pode ser aprimorada avaliando regularmente a qualidade das revisões humanas (eles estão identificando saídas corretas e incorretas com precisão?) E procurando evidências de viés de automação (os revisores estão realmente avaliando os resultados?). Uma técnica de controle de qualidade é introduzir erros intencionais de vez em quando. Se um revisor falhar em sinalizar a resposta como incorreta, ele será alertado de que este foi um teste e não conseguiu pegar o erro. Essas cutucadas periódicas costumam ser suficientes para garantir que os revisores avaliem cuidadosamente os resultados e que o viés de automação não assuma o controle. Uma ressalva: as organizações precisam encontrar um equilíbrio cuidadoso, usando esses casos de teste na medida certa. Muitos, e os ganhos de eficiência do sistema Genai sofrerão. Poucos, e o processo pode ter pouco impacto no desempenho do revisor. Os líderes da empresa - e, em última análise, os revisores - geralmente veem a supervisão como um dreno no potencial de valor de uma solução genai. As avaliações levam tempo, diminuem as obras e impedem que as organizações realizem todos os ganhos que antecipavam. Ao fatorar o tempo de revisão no caso de negócios da solução, as empresas estabelecem expectativas mais realistas de valor. Isso torna menos provável que a supervisão seja jogada sob o ônibus. E se o potencial de valor for menor, como resultado, tudo bem, pois a análise de custo-benefício mais rica ajuda as empresas a priorizar melhor as soluções para se desenvolver. Uma análise inicial também informa os líderes desde o início que um caso de negócios não fecha mais. Dessa forma, eles podem cortar a isca antes de fazer um investimento que não recuperarão.
Establish a quality control process. Oversight can also be enhanced by regularly assessing the quality of human reviews (are they identifying correct and incorrect outputs accurately?) and looking for evidence of automation bias (are reviewers actually assessing the outputs?). One quality control technique is to introduce intentional errors every so often. If a reviewer fails to flag the response as incorrect, they’re alerted that this was a test, and they failed to catch the error. These periodic nudges are often enough to ensure that reviewers will carefully evaluate outputs and that automation bias doesn’t take over. One caveat: organizations need to strike a careful balance, using these test cases in just the right measure. Too many, and the GenAI system’s efficiency gains will suffer. Too few, and the process may have little impact on reviewer performance.
Build review time into the business case. Company leaders—and, ultimately, reviewers—often come to see oversight as a drain on a GenAI solution’s value potential. Evaluations take time, they slow down the works, and they keep organizations from realizing all the gains they anticipated. By factoring review time into the solution’s business case, companies set more realistic expectations for value. This makes it less likely that oversight gets thrown under the bus. And if the value potential is lower as a result, that’s okay, too, as the richer cost-benefit analysis helps companies better prioritize solutions to develop. An up-front analysis also lets leaders know early on that a business case no longer closes. That way, they can cut bait before making an investment they won’t recoup.
Aproveite uma abordagem diferenciada por risco. A supervisão humana é tempo bem gasto - geralmente. Uma abordagem all-in, sempre ativa e não que não envergonha pode cancelar todos os ganhos de eficiência que um sistema Genai pode trazer. Mas, ao projetar a supervisão de uma maneira diferenciada por risco, as empresas podem encontrar o equilíbrio certo entre revisão e eficiência. A diferenciação pode assumir formas diferentes. Pode ser baseado no objetivo do sistema (alguns sistemas, por exemplo, podem precisar de mais revisão do que outros) ou, perfurando mais profundamente, a decisão específica em jogo, com mais revisão necessária para a produção de maior risco.
By designing oversight in a risk-differentiated way, companies can strike the right balance between review and efficiency.
Aproveite o genai para supervisão. Em áreas como gerenciamento de dados, Genai já está se mostrando seu próprio facilitador. Talvez o mesmo possa ser verdadeiro para a supervisão. Por exemplo, os designers de sistemas podem construir uma capacidade de auto-avaliação. De fato, o sistema Genai se critica, fornecendo uma avaliação de confiança em sua resposta (por exemplo, através de uma pontuação de confiança), com menor certeza, desencadeando mais revisão humana. Os sistemas de revisão baseados em Genai oferecem as vantagens de velocidade, escala e imunidade aos desincentivos (eles não se preocupam com as consequências de pressionar o botão "escalado"). As organizações que pensam cuidadosamente sobre como combinar revisores humanos baseados em Genai podem se encontrar com o tipo de supervisão mais eficaz e eficiente.
Organizations that think carefully about how to combine GenAI-based and human reviewers may find themselves with the most effective, most efficient kind of oversight.
Eduque os usuários. A supervisão humana robusta é alimentada pelo conhecimento: não apenas evidências a favor e contra a produção, mas também uma compreensão dos pontos fortes e limitações das tecnologias de Genai e as implicações dos diferentes riscos de um sistema. Educar os usuários também significa compartilhar resultados da fase de T&E e fornecer informações sobre quando o sistema tem um bom desempenho e quando tendem a haver lacunas. E significa articular - claramente e precisamente - o objetivo de um sistema genai ou um caso de uso, para que os revisores possam identificar não apenas resultados imprecisos, mas também desvios da função pretendida. As organizações devem garantir que cada sistema Genai tenha um cartão do sistema - documentação resumindo recursos, uso pretendido, limitações, riscos e resultados de T&E - e torná -lo facilmente acessível a todos os usuários. Mas só funciona quando é cuidadosamente projetado, não delegado casualmente. Empresas que supervisionam certamente o tornam um componente integrante do design de sistemas genai e
Human oversight helps keep GenAI’s value coming and its perils at bay. But it only works when it is carefully designed, not casually delegated. Companies that get oversight right make it an integral component of both GenAI systems design and
Mitigação de risco.
Eles promovem a vigilância onde e quando mais importa. E eles capacitam os revisores a dizer algo quando vêem alguma coisa. Os sistemas Genai não são perfeitos; Nem os seres humanos. Mas com supervisão robusta, a tecnologia e as pessoas podem realizar seu potencial - com segurança e plenamente. Parceiro
Oficial de Ética da AI Chefe