JA

Como as pessoas podem criar - e destruir - valor com ai generativo

por François Candelon, Lisa Krayer, Saran Rajendran e David Zuluaga Martínez
Artigo 15 Min Read

Teclas de chave

Um experimento científico de primeira linha descobre que as pessoas desconfiam de IA generativa em áreas em que pode contribuir com um valor tremendo e confiar demais onde a tecnologia não é competente. As pessoas se saíram melhor quando não tentaram editar a saída do GPT-4. Seu desempenho foi 23% pior do que aqueles que não usaram a ferramenta. O trabalho do líder é ajudar as pessoas a usar a nova tecnologia da maneira certa, para as tarefas certas e ajustar e se adaptar continuamente diante da fronteira em constante expansão de Genai.
  • Around 90% of participants improved their performance when using GenAI for creative ideation. People did best when they did not attempt to edit GPT-4’s output.
  • When working on business problem solving, a task outside the tool’s current competence, many participants took GPT-4's misleading output at face value. Their performance was 23% worse than those who didn’t use the tool at all.
  • Adopting generative AI is a massive change management effort. The job of the leader is to help people use the new technology in the right way, for the right tasks and to continually adjust and adapt in the face of GenAI’s ever-expanding frontier.
Salvo para Meu conteúdo salvo
Download Artigo

IA generativa será um poderoso facilitador de vantagem competitiva para empresas que quebram o código de adoção. Em um experimento científico de primeira linha, descobrimos que, quando a Genai é usada da maneira certa e, para as tarefas certas, seus recursos são tais que os esforços das pessoas para melhorar a qualidade de sua produção podem sair pela culatra. Mas não é óbvio quando a nova tecnologia é (ou não é) uma boa opção, e as habilidades persuasivas da ferramenta dificultam a identificação de uma incompatibilidade. Isso pode ter sérias conseqüências: quando é usado da maneira errada, para as tarefas erradas, AI generativo Pode causar destruição significativa de valor.

We conducted our experiment with the support of a group of scholars from Harvard Business School, MIT Sloan School of Management, the Wharton School at the University of Pennsylvania, and the University of Warwick. 1 1 Projetamos o estudo com contribuição do professor Karim R. Lakhani, Dr. Fabrizio Dell'Acqua e Professor Edward McFowland III da Harvard Business School; Professor Ethan R. Mollick, da Wharton School da Universidade da Pensilvânia; Professor Hila Lifshitz-Ansaf na Universidade de Warwick; e professora Katherine C. Kellogg na MIT Sloan School of Management. Nossos colegas acadêmicos analisaram nossos dados. Consulte o nosso Artigo acadêmico Para mais detalhes. Com mais de 750 consultores de BCG em todo o mundo como sujeitos, é o primeiro estudo a testar o uso de IA generativa em um ambiente de serviços profissionais-através de tarefas que refletem o que os funcionários fazem todos os dias. Os resultados têm implicações críticas entre as indústrias. Além disso, eles convergiram para um nível de desempenho 40% maior que o dos que trabalham na mesma tarefa sem o GPT-4. As pessoas capturaram melhor essa vantagem quando não tentaram melhorar a produção gerada pela tecnologia. Quando nossos participantes usaram a tecnologia para resolver problemas de negócios, uma capacidade fora dessa fronteira, eles tiveram 23% pior do que aqueles que realizavam a tarefa sem o GPT-4. E mesmo os participantes que foram avisados ​​sobre a possibilidade de respostas erradas da ferramenta não desafiaram sua saída. Aqueles que usaram o GPT-4 para uma tarefa fora dessa fronteira tiveram um desempenho pior do que aqueles que não usaram a ferramenta.

The opportunity to boost performance is astonishing: When using generative AI (in our experiment, OpenAI’s GPT-4) for creative product innovation, a task involving ideation and content creation, around 90% of our participants improved their performance. What’s more, they converged on a level of performance that was 40% higher than that of those working on the same task without GPT-4. People best captured this upside when they did not attempt to improve the output that the technology generated.

Creative ideation sits firmly within GenAI’s current frontier of competence. When our participants used the technology for business problem solving, a capability outside this frontier, they performed 23% worse than those doing the task without GPT-4. And even participants who were warned about the possibility of wrong answers from the tool did not challenge its output.

When using GPT-4 for a task within the tool’s current frontier of competence, nearly all participants improved their performance. Those who used GPT-4 for a task outside this frontier performed worse than those who didn’t use the tool.

Nossas descobertas descrevem um paradoxo: as pessoas parecem desconfiar da tecnologia em áreas onde pode contribuir com valor maciço e confiar demais em áreas em que a tecnologia não é competente. Isso é preocupante por si só. Mas também descobrimos que, mesmo que as organizações mudem esses comportamentos, os líderes devem observar outras armadilhas em potencial: nosso estudo mostra que a produção relativamente uniforme da tecnologia pode reduzir a diversidade de pensamento de um grupo em 41%. Mas nossas descobertas apontam para um momento crucial de tomada de decisão para os líderes de todas as indústrias. Eles precisam pensar criticamente sobre o trabalho que sua organização faz e quais tarefas podem se beneficiar ou ser danificado pela IA generativa. Eles precisam abordar sua adoção como um esforço de gerenciamento de mudanças, abrangendo a infraestrutura de dados, testes e experimentação rigorosos e uma revisão das estratégias de talentos existentes. Talvez o mais importante, os líderes precisam revisitar continuamente suas decisões como a fronteira dos avanços da competência de Genai.

The precise magnitude of the effects we uncovered will be different in other settings. But our findings point to a crucial decision-making moment for leaders across industries. They need to think critically about the work their organization does and which tasks can benefit from or be damaged by generative AI. They need to approach its adoption as a change management effort spanning data infrastructure, rigorous testing and experimentation, and an overhaul of existing talent strategies. Perhaps most important, leaders need to continually revisit their decisions as the frontier of GenAI’s competence advances.

O valor em jogo

Nossas descobertas deixam claro que a adoção generativa da IA ​​é uma espada de dois gumes. Em nosso experimento, os participantes que usam o GPT-4 para inovação criativa de produtos superaram o grupo de controle (aqueles que concluíram a tarefa sem usar o GPT-4) em 40%. Mas para a solução de problemas de negócios, o uso do GPT-4 resultou em desempenho 23% menor que o do grupo controle. (Consulte o Anexo 1.)

Generative AI Significantly Boosts or Hurts Performance, Depending on the Type of Task

The creative product innovation task asked participants to come up with ideas for new products and go-to-market plans. The business problem-solving task asked participants to identify the root cause of a company’s challenges based on performance data and interviews with executives. (See “Our Experiment Design and Methodology.”) Perhaps somewhat counterintuitively, current GenAI models tend to do better on the first type of task; it is easier for LLMs to come up with creative, novel, or useful ideas based on the vast amounts of data on which they have been trained. Where there’s more room for error is when LLMs are asked to weigh nuanced qualitative and quantitative data to answer a complex question. Given this shortcoming, we as researchers knew that GPT-4 was likely to mislead participants if they relied completely on the tool, and not also on their own judgment, to arrive at the solution to the business problem-solving task (this task had a “right” answer).

Nosso design e metodologia do experimento
= Um total de 758 colaboradores individuais juniores nos negócios de consultoria voltados para clientes da BCG de todo o mundo se ofereceram para o experimento; Todos eles tinham pelo menos uma graduação e até quatro anos de experiência profissional, em média. Todos os resultados apresentados neste artigo e no artigo acadêmico controlado por mais de 20 fatores comumente usados ​​nas ciências sociais, como gênero, obtenção educacional, proficiência em inglês, geografia, experiência generativa anterior, vistas sobre a IA generativa e vários traços de personalidade auto-relatados. dos participantes. A seguir, são apresentadas algumas das perguntas que os participantes tiveram que responder:

Task Design


Our experiment was designed around two sets of tasks, each completed by a separate group of participants.

The first set focused on creative product innovation. Participants were asked to brainstorm ideas for new products to solve an unmet need, develop the business case for each, create testing and launch plans, and write memos to persuade others to adopt the idea. The following are some of the questions that participants had to answer:
  • Você está trabalhando para uma empresa de calçados na unidade que desenvolve novos produtos. Gere idéias para um novo sapato destinado a um mercado ou esporte específico que é mal atendido. Seja criativo e dê pelo menos dez idéias. Seja conciso, mas abrangente.
  • Come up with a list of steps needed to launch the product. Be concise but comprehensive.
  • Use seu melhor conhecimento para segmentar o mercado de calçados pelos usuários. Desenvolva um slogan de marketing para cada segmento que você está segmentando. Os participantes foram solicitados a identificar canais e marcas em uma empresa fictícia para otimizar sua receita e lucratividade, com base em notas de entrevistas com executivos (fictícios) da empresa e dados históricos de desempenho de negócios. A seguir, são apresentadas algumas das perguntas que os participantes tiveram que responder:
  • Suggest three ways of testing whether your marketing slogan works well with the customers you have identified.
  • Write marketing copy for a press release of the product.
The second set focused on business problem solving. Participants were asked to identify channels and brands in a fictitious company to optimize its revenue and profitability, based on interview notes with (fictitious) company executives and historical business performance data. The following are some of the questions that participants had to answer:
  • O CEO, Harold van Muylders, de Kleding (uma empresa fictícia) gostaria de entender o desempenho das três marcas da empresa (Kleding Man, Kleding Woman e Kleding Kids) para descobrir problemas e mais profundamente. Encontre entrevistas em anexo de insiders da empresa. Além disso, a planilha do Excel anexada fornece dados financeiros divididos pelas marcas. Qual é a lógica para essa escolha? Apoie suas opiniões com dados e/ou citações de entrevista.
    • Using this information, if the CEO must pick one brand to focus on and invest in to drive revenue growth in the company, what brand should that be? What is the rationale for this choice? Please support your views with data and/or interview quotations.
Os dois conjuntos de tarefas foram deliberadamente projetados para se parecer com alguns dos trabalhos que os participantes executam como consultores de gerenciamento. A tarefa de solução de problemas de negócios foi explicitamente projetada para ser difícil para a conclusão do GPT-4. Essa tarefa, que contém uma resposta certa clara, foi projetada para ser complexa o suficiente para garantir que a resposta do GPT-4 em uma primeira passagem seja incorreta. Os participantes podem resolver a tarefa de solução de problemas de negócios, contando com seu próprio julgamento para provocar as nuances nas perguntas e dados fornecidos ou solicitando o GPT-4 para melhor "pensar" no problema. Essa tarefa foi projetada para ser muito semelhante à tarefa experimental em termos de dificuldade e às habilidades que testou. Isso nos permitiu entender como o uso do GPT-4 afetou o desempenho relativo entre indivíduos com diferentes níveis de proficiência na linha de base. Criatividade, escrita persuasiva, pensamento analítico e habilidades gerais de escrita. O desempenho geral foi calculado como a média das quatro dimensões. O desempenho foi avaliado como um grau binário (correto ou incorreto). Dentro de cada conjunto de tarefas, os participantes foram randomizados em três grupos:

The creative product innovation task was designed to play to GPT-4’s strengths as an LLM, primarily because it involved creativity, refinement, and persuasive writing, which are within GPT-4’s frontier of capability. The business problem-solving task was explicitly designed to be difficult for GPT-4 to complete. This task, which contains a clear right answer, was designed to be complex enough to ensure that GPT-4’s answer on a first pass would be incorrect. Participants could solve the business problem-solving task either by relying on their own judgment to tease out the nuances in the questions and data provided or by prompting GPT-4 to better “think through” the problem.

Measuring Baseline Proficiency



Before attempting the experimental task, each participant also solved a baseline task without the use of any AI tool. This task was designed to be very similar to the experimental task in terms of difficulty and the skills it tested for.

By evaluating performance on this baseline task using the same grading rubric as the experimental task (see below), we were able to create a sense of each participant’s baseline proficiency in the specific task type. This then enabled us to understand how GPT-4 use affected relative performance across individuals with different levels of baseline proficiency.

Grading Rubric



Each set of tasks had its own grading rubric:

For creative product innovation, participants were graded on a scale of 1 to 10, on four dimensions: creativity, persuasive writing, analytical thinking, and overall writing skills. Overall performance was calculated as the average of the four dimensions.

For business problem solving, participants were graded on the correctness of the response (that is, which channel or brand is most likely to boost revenue or profitability for the fictitious company). Performance was assessed as a binary grade (correct or incorrect).

Experimental Treatment Design



Each of the 758 participants in the experiment was randomly assigned to one of the two sets of tasks (creative product innovation or business problem solving), controlling for key demographic variables. Within each set of tasks, participants were then randomized into three groups:
  • Grupo A: Aqueles que usaram o GPT-4 para resolver a tarefa após um treinamento de 30 minutos em práticas recomendadas no uso do GPT-4 (consulte a barra lateral em treinamento). GPT-4 para resolver a tarefa (grupo de controle). No total, 99% dos participantes dos grupos A e B-aqueles com acesso ao GPT-4-de fato usaram a ferramenta para concluir as tarefas. Para que este experimento capture completamente como os participantes podem se comportar no mundo real, uma estrutura de incentivo substancial foi implementada para garantir que os participantes fizessem o possível para resolver cada tarefa. A conclusão bem -sucedida do experimento foi rastreada e finalmente considerada nos bônus anuais de desempenho dos participantes. Além disso, os 20% dos melhores desempenhos foram chamados especificamente aos seus gerentes para incentivar ainda mais o alto desempenho. Os alunos da humanidade estavam "cegos", pois não sabiam se a produção era de participantes que usaram o GPT-4 ou não. Além disso, foram feitas tarefas de classificação de tal maneira que os efeitos fixos específicos do aluno (alguns alunos são naturalmente mais adversos que outros) foram controlados, garantindo que os resultados não fossem tendenciosos dessa maneira. As notas geradas por seres humanos coincidiram em grande parte com os graus GPT-4, levando às mesmas sugestões do experimento. De acordo com a prática acadêmica padrão, confiamos principalmente em notas geradas pelo ser humano para as análises apresentadas aqui, exceto para aqueles que preocupam as mudanças na distribuição entre as tarefas de linha de base e experimentais. Para as últimas análises, em particular, confiamos nas séries GPT-4 para maximizar a consistência nas tarefas de linha de base e experimentais (no sistema de classificação gerado pelo ser humano, diferentes grades podem ter pontuado as submissões de linha de base e experimentais para o mesmo participante).
  • Group B: Those who used GPT-4 to solve the task without any training.
  • Group C: Those who did not use GPT-4 to solve the task (control group).
Once sorted into groups, participants were asked to complete two tasks: a baseline task (which they all carried out without GPT-4) and the experimental task (which groups A and B completed with GPT-4, and group C without). In total, 99% of participants in groups A and B—those with access to GPT-4—did in fact use the tool to complete the tasks.

Incentive Structure



A cornerstone of this experiment is its proximity to real-world tasks performed by business professionals. For this experiment to fully capture how participants may behave in the real world, a substantial incentive structure was put in place to ensure that participants would do their best to solve each task.

To ensure this, participation in this experiment was noted in participants’ bi-annual performance reviews. Successful completion of the experiment was tracked and ultimately factored into participants’ annual performance bonuses. In addition, top 20% performers were specifically called out to their managers to further incentivize high performance.

Grading Methodologies



For both the baseline and the experimental tasks, the output from participants was graded by humans (a combination of BCG consultants and business school students with experience grading academic assignments). The human graders were “blinded,” in that they did not know whether the output was from participants who used GPT-4 or not. Furthermore, grading assignments were made in such a way that grader-specific fixed effects (some graders are naturally harsher than others) were controlled for, ensuring that the results were not biased in that way.

We also used GPT-4 to independently grade performance on all tasks, using the same rubric as the human graders. Human-generated grades largely coincided with GPT-4 grades, leading to the same takeaways from the experiment. In line with standard academic practice, we primarily relied on human-generated grades for the analyses presented here, except for those that concern changes in distribution between baseline and experimental tasks. For the latter analyses in particular, we relied on the GPT-4 grades to maximize consistency across baseline and experimental tasks (in the human-generated grading system, different graders may have scored the baseline and experimental submissions for the same participant).

Para uma descrição mais detalhada do projeto experimental, consulte o nosso Artigo acadêmico Sobre o tópico.

Também sabíamos que os participantes eram capazes de encontrar a resposta para a tarefa de solução de problemas de negócios por conta própria: 85% dos participantes do grupo de controle o fizeram. No entanto, muitos participantes que usaram o GPT-4 para esta tarefa aceitaram a saída errônea da ferramenta pelo valor nominal. É provável que a capacidade do GPT-4 de gerar conteúdo persuasivo tenha contribuído para esse resultado. Em nossas conversas informais com os participantes, muitos confirmaram que encontraram a lógica GPT-4 oferecida para sua produção muito convincente (embora, como um LLM, ele tenha apresentado a lógica após a recomendação, em vez de criar a recomendação com base na lógica). (No início do experimento, os participantes concluíram uma tarefa de linha de base sem usar o GPT-4 que então classificamos e classificamos; veja a barra lateral em nosso design e metodologia). Isso tem uma ressalva importante: quanto menor a proficiência na linha de base do indivíduo, mais significativo o efeito tendia a ser; Para a tarefa de inovação de produtos criativos, esses indivíduos aumentaram o desempenho em 43%. Ainda assim, o efeito foi material, mesmo para os artistas de linha de base mais bem classificados, entre os quais a vantagem e a desvantagem do uso do GPT-4 nas duas tarefas foi de 17% e -17%, respectivamente. (Veja o Anexo 2.) (Em todo o tempo, nossa discussão sobre o desempenho dos participantes não é indicativa de seus níveis absolutos de competência e talentos em relação a essas ou outras tarefas.)

The double-edged-sword effect holds across all levels of baseline proficiency. (At the start of the experiment, participants completed a baseline task without using GPT-4 that we then graded and ranked; see the sidebar on our design and methodology). This has an important caveat: The lower the individual’s baseline proficiency, the more significant the effect tended to be; for the creative product innovation task, these individuals boosted performance by 43%. Still, the effect was material even for the top-ranked baseline performers, among whom the upside and downside of using GPT-4 on the two tasks were 17% and -17%, respectively. (See Exhibit 2.) (Throughout, our discussion of participants’ performance is not indicative of their absolute levels of competence and talents with respect to these or other tasks.)
 

How People Can Create—and Destroy—Value with Generative AI | Ex 2 Questão mais importante entre o desempenho e o desempenho do que é o que é o que é o que é o que é o que é o que há de desempenho, o que diz respeito a essas ou outras tarefas. Destruição seja atenuada ajudando as pessoas a entender o quão adequado a tecnologia é para uma determinada tarefa? Seria racional supor que, se os participantes soubessem as limitações do GPT-4, eles saberiam não usá-lo, ou o usariam de maneira diferente, nessas situações. Os efeitos negativos do GPT-4 na tarefa de solução de problemas de negócios não desapareceram quando os sujeitos receberam uma visão geral de como solicitar o GPT-4 e as limitações da tecnologia. (Consulte “Nosso uso do treinamento no experimento.”)

The strong connection between performance and the context in which generative AI is used raises an important question about training: Can the risk of value destruction be mitigated by helping people understand how well-suited the technology is for a given task? It would be rational to assume that if participants knew the limitations of GPT-4, they would know not to use it, or would use it differently, in those situations.

Our findings suggest that it may not be that simple. The negative effects of GPT-4 on the business problem-solving task did not disappear when subjects were given an overview of how to prompt GPT-4 and of the technology’s limitations. (See “Our Use of Training in the Experiment.”)

Nosso uso do treinamento no experimento
O treinamento fornecido a um subconjunto de entrevistados durou aproximadamente 30 minutos e foi projetado como um curso interno de "contar, mostrar e fazer" sobre a melhor forma de usar o GPT-4 para a tarefa que os participantes estavam prestes a executar. Durante a fase Tell do treinamento, os participantes foram informados sobre as melhores práticas para o uso do GPT-4. A fase do show forneceu um exemplo que ilustrava como esses conceitos poderiam ser aplicados a uma tarefa de amostra. Finalmente, na fase DO, os participantes tiveram a chance de testar seu aprendizado usando o GPT-4 em uma tarefa de linha de base que acabaram de concluir, em preparação para a tarefa experimental. Eles receberam um exemplo de como o GPT-4 pode falhar no raciocínio e advertido contra confiar fortemente no GPT-4 para essas tarefas.

Participants in the business problem-solving task were informed of the challenges and pitfalls of using GPT-4 in a problem-solving context. They were shown an example of how GPT-4 can fail at reasoning and cautioned against relying heavily on GPT-4 for such tasks.

ainda mais intrigante, eles foram consideravelmente piores, em média, do que aqueles que não receberam esse treinamento simples antes de usar o GPT-4 para a mesma tarefa. (Veja o Anexo 3.) Este resultado não implica que todo o treinamento seja ineficaz. Mas isso nos levou a considerar se esse efeito foi o resultado da excesso de confiança dos participantes em suas próprias habilidades para usar o GPT-4-pessoalmente porque eles foram treinados. de como a IA generativa afeta os indivíduos. Quando olhamos para trás das médias, descobrimos que o uso do GPT-4 tem dois efeitos distintos na distribuição de desempenho individual. (Veja o Anexo 4.) Primeiro, toda a distribuição muda para a direita, em direção a níveis mais altos de desempenho. Isso ressalta o fato de que o impulso de desempenho de 40% discutido acima não é uma função de outliers "positivos". Quase todos os participantes (cerca de 90%), independentemente de sua proficiência na linha de base, produziram resultados de maior qualidade ao usar o GPT-4 para a tarefa de inovação de produtos criativos. Segundo, a variação no desempenho é dramaticamente reduzida: uma parcela muito mais alta de nossos participantes realizados no nível médio ou muito próximo ao nível médio.

How People Can Create—and Destroy—Value with Generative AI | Ex 3

New Opportunities for Human Talent

Effects at the group level, like the ones discussed above, aren’t necessarily indicative of how generative AI impacts individuals. When we look behind the averages, we find that the use of GPT-4 has two distinct effects on individual performance distribution. (See Exhibit 4.) First, the entire distribution shifts to the right, toward higher levels of performance. This underscores the fact that the 40% performance boost discussed above is not a function of “positive” outliers. Nearly all participants (around 90%), irrespective of their baseline proficiency, produced higher-quality results when using GPT-4 for the creative product innovation task. Second, the variance in performance is dramatically reduced: A much higher share of our participants performed at or very close to the average level.

How People Can Create—and Destroy—Value with Generative AI | Ex 4

Em outras palavras, os participantes com menor proficiência na linha de base, quando recebidos acesso a IA generativos, acabaram sendo quase combinando com aqueles com maior proficiência na linha de base. Ser mais proficiente sem o auxílio da tecnologia não dá uma grande vantagem quando todos podem usar o GPT-4 para executar uma tarefa de inovação criativa de produtos. (Veja o Anexo 5.) O fato de termos observado esse efeito entre nossa amostra bem-educada e de alto desempenho sugere que ela pode ser ainda mais pronunciada em contextos mais heterogêneos, com uma propagação mais ampla na proficiência. De desempenho na tarefa de inovação de produtos criativos, parece que a pessoa comum não é capaz de melhorar a produção da tecnologia. De fato, os esforços humanos para aprimorar as saídas do GPT-4 diminuem a qualidade. (Veja a barra lateral em nosso design e metodologia para uma descrição de como medimos a qualidade.) Descobrimos que a saída GPT-4 de "cópia" se correlacionava fortemente com o desempenho: quanto mais a submissão final de um participante na tarefa de inovação de produtos criativos se afastou do rascunho do GPT-4, maior a probabilidade de se atrasar na qualidade. (Veja o Anexo 6.) Para cada aumento de 10% na divergência do rascunho do GPT-4, os participantes, em média, caíram no ranking de qualidade em cerca de 17 pontos percentuais. Além da fronteira das principais competências da tecnologia. Em geral, eles não se sentiram ameaçados pela IA generativa; Em vez disso, eles ficaram empolgados com essa mudança em seus papéis e adotaram a idéia de assumir tarefas que apenas os humanos podem fazer. Como um participante observou: "Acho que há muito valor agregado no que podemos fazer como seres humanos. Você precisa de um humano para adaptar uma resposta ao contexto de uma empresa; esse processo não pode ser substituído pela IA". Outro observou: "Eu acho que é uma oportunidade de fazer as coisas com mais eficiência, parar de perder tempo em coisas muito repetitivas e realmente se concentrar no que é importante, o que é mais estratégico". Outros profissionais podem sentir maior medo ou ter mais dificuldade em adaptar seu papel à nova tecnologia. Como o GPT-4 fornece respostas com um significado muito semelhante e, novamente, aos mesmos tipos de instruções, a saída fornecida pelos participantes que usavam a tecnologia era individualmente melhor, mas coletivamente repetitiva. A diversidade de idéias entre os participantes que usaram o GPT-4 para a tarefa de inovação de produtos criativos foi 41% menor em comparação com o grupo que não usava a tecnologia. (Veja o Anexo 7.) As pessoas não adicionaram apreciavelmente à diversidade de idéias, mesmo quando editaram a produção do GPT-4. Aproximadamente 70% acreditam que o uso extensivo do GPT-4 pode sufocar suas habilidades criativas ao longo do tempo. (Veja o Anexo 8.) Como um participante explicou: "Como qualquer tecnologia, as pessoas podem confiar muito nela. O GPS ajudou a navegar imensamente quando foi lançado pela primeira vez, mas hoje as pessoas nem conseguem dirigir sem um GPS. Como as pessoas confiam demais em uma tecnologia, elas perdem habilidades que tinham uma vez." Outro participante observou: "Esse [fenômeno] é definitivamente uma preocupação para mim. Se eu me tornar muito dependente do GPT, enfraquecerá meus músculos de criatividade. Isso já aconteceu comigo durante o experimento". As empresas precisarão estar atentos a seus

How People Can Create—and Destroy—Value with Generative AI | Ex 5

Digging deeper, we find that because GPT-4 reaches such a high level of performance on the creative product innovation task, it seems that the average person is not able to improve the technology’s output. In fact, human efforts to enhance GPT-4 outputs decrease quality. (See the sidebar on our design and methodology for a description of how we measured quality.) We found that “copy-pasting” GPT-4 output strongly correlated with performance: The more a participant’s final submission in the creative product innovation task departed from GPT-4’s draft, the more likely it was to lag in quality. (See Exhibit 6.) For every 10% increase in divergence from GPT-4’s draft, participants on average dropped in the quality ranking by around 17 percentile points.

How People Can Create—and Destroy—Value with Generative AI | Ex 6

It appears that the primary locus of human-driven value creation lies not in enhancing generative AI where it is already great, but in focusing on tasks beyond the frontier of the technology’s core competencies.

Interestingly, we found that most of our participants seemed to grasp this point intuitively. In general, they did not feel threatened by generative AI; rather, they were excited by this change in their roles and embraced the idea of taking on tasks that only humans can do. As one participant observed, “I think there is a lot of value add in what we can do as humans. You need a human to adapt an answer to a business’s context; that process cannot be replaced by AI.” Another noted, “I think it’s an opportunity to do things more efficiently, to stop wasting time on things that are very repetitive and actually focus on what’s important, which is more strategic.”

However, it is worth keeping in mind the population of this study: highly skilled young knowledge workers who are more likely to be able to make this transition easily. Other professionals may feel greater fear or experience more difficulty adapting their role to the new technology.

The Creativity Trap

Even if you use GenAI in the right way, and for the right tasks, our research suggests that there are risks to creativity.

The first risk is a tradeoff between individual performance gains and collective creativity loss. Because GPT-4 provides responses with very similar meaning time and again to the same sorts of prompts, the output provided by participants who used the technology was individually better but collectively repetitive. The diversity of ideas among participants who used GPT-4 for the creative product innovation task was 41% lower compared with the group that did not use the technology. (See Exhibit 7.) People didn’t appreciably add to the diversity of ideas even when they edited GPT-4’s output.

How People Can Create—and Destroy—Value with Generative AI | Ex 7

The second risk is drawn from a sample of our interviews with participants. Roughly 70% believe that extensive use of GPT-4 may stifle their creative abilities over time. (See Exhibit 8.) As one participant explained, “Like any technology, people can rely on it too much. GPS helped navigation immensely when it was first released, but today people can’t even drive without a GPS. As people rely on a technology too much, they lose abilities they once had.” Another participant noted, “This [phenomenon] is definitely a concern for me. If I become too reliant on GPT, it will weaken my creativity muscles. This already happened to me during the experiment.” Businesses will need to be mindful of their Percepções e atitudes dos funcionários sobre a IA generativa , e como isso pode afetar sua capacidade de impulsionar a inovação e agregar valor.

How People Can Create—and Destroy—Value with Generative AI | Ex 8

ainda não temos dados para confirmar as percepções de nossos participantes; Este é um tópico para um estudo posterior. Mas se as preocupações dos funcionários se destacam, isso poderá agravar o risco em nível de grupo. Especificamente, a perda da diversidade coletiva de idéias pode ser exacerbada se os funcionários sofrerem alguma atrofia da criatividade individual. vantagem.

The Generative AI Change Imperative

Inspired by the findings from our research, we envision a series of questions, challenges, and options that can help business leaders make generative AI adoption a source of differentiation—and, as such, an enabler of sustained competitive advantage.

Estratégia de dados. Mas se várias empresas aplicarem a tecnologia em conjuntos de tarefas semelhantes, ela poderá produzir um efeito de nivelamento entre as organizações análogas ao padrão observado entre os participantes em nosso experimento. Como resultado, uma das chaves da diferenciação será a capacidade de ajustar os modelos generativos de IA com grandes volumes de dados específicos de alta qualidade e específicos da empresa. Any company that incorporates GenAI can realize significant efficiency gains in areas where the technology is competent. But if multiple firms apply the technology across similar sets of tasks, it can produce a leveling effect among organizations analogous to the pattern observed among participants in our experiment. As a result, one of the keys to differentiation will be the ability to fine-tune generative AI models with large volumes of high-quality, firm-specific data.

Isso é mais fácil dizer do que fazer. Em nossa experiência, nem todas as empresas têm os recursos avançados de infraestrutura de dados necessários para processar seus dados proprietários. Desenvolver essas capacidades tem sido um foco essencial das transformações de IA, mas com a chegada de IA generativa, torna -se ainda mais importante: como Argumentamos em outro lugar , o poder de Genai geralmente reside na identificação de manchas e correlações inesperadas - até contra -intuitivas -. Para colher esses benefícios, as empresas precisam de um pipeline de dados abrangente, combinado com um foco renovado no desenvolvimento de recursos de engenharia de dados internos. Instead of the default assumption that technology creates a helpful first draft that requires revision, people should regard the output as a plausible final draft that they should check against firm-established guardrails but otherwise largely leave as is.

Roles and Workflows. For tasks that generative AI systems have mastered—which, of course, is an ever-expanding list—people need to radically revise their mindset and their approach to work. Instead of the default assumption that technology creates a helpful first draft that requires revision, people should regard the output as a plausible final draft that they should check against firm-established guardrails but otherwise largely leave as is.

The value at stake lies not only in the promise of greater efficiency but also in the possibility for people to redirect time, energy, and effort away from tasks that generative AI will take over. Os funcionários poderão dobrar as tarefas que permanecerão além da fronteira dessa tecnologia, atingindo níveis mais altos de proficiência.

The value at stake lies not only in the promise of greater efficiency but also in the possibility for people to redirect time, energy, and effort away from tasks that generative AI will take over.

girando as lentes sobre nós mesmos, já podemos imaginar nossos funcionários gastando menos tempo resumindo manualmente pesquisas ou polindo slides e investindo ainda mais esforços para impulsionar iniciativas complexas de gerenciamento de mudanças. O impacto da interrupção generativa da IA ​​variará drasticamente nas categorias de empregos. Mas pelo menos alguns trabalhadores - incluindo a maioria de nossos participantes - estão confrontando essa perspectiva com otimismo. Leve as pessoas para definir o que e como a IA generativa será usada. Mas não é óbvio quais capacidades humanas são mais adequadas para maximizar o valor da ferramenta ou com que frequência esses recursos mudarão. Estamos vendo essa incerteza em tempo real em relação ao LLMS: o papel do "engenheiro rápido" não existia há um ano, mas a demanda por esse papel durante o segundo trimestre de 2023 foi quase sete vezes maior do que estava em

Strategic Workforce Planning. To get the AI–human dynamics right in complex organizations, leaders must grapple with four questions that have no easy answers:

Experimentação e teste. As tarefas para as quais a IA generativa é inadequada hoje provavelmente estará dentro de sua fronteira de competência em breve-talvez em um futuro muito próximo. É provável que isso aconteça à medida que os LLMs se tornam multimodais (indo além do texto para incluir outros formatos de dados) ou à medida que os modelos aumentam, os quais aumentam a probabilidade de recursos imprevisíveis. expandindo a fronteira. E à medida que a tecnologia muda, o modelo de colaboração entre humanos e IA generativa também terá que mudar. A experimentação pode produzir algumas descobertas contra -intuitivas ou até desconfortáveis ​​sobre o seu negócio, mas também permitirá que você obtenha informações inestimáveis ​​sobre como a tecnologia pode e deve ser usada. Colocamos os pés no fogo com esse experimento - e acreditamos que todos os líderes empresariais devem fazer o mesmo. O sucesso na era da IA ​​dependerá amplamente da capacidade de uma organização de aprender e mudar mais rápido do que nunca. Os autores também gostariam de agradecer a Lebo Nthoiwa, Patrick Healy, Saud Almutairi e Steven Randazzo por seus esforços entrevistando os participantes do experimento. Os autores também agradecem a todos os seus colegas do BCG que se ofereceram para participar deste experimento. Inscreva -se Generative AI systems continue to develop at a stunning rate: In just the few months between the releases of OpenAI’s GPT-3.5 and GPT-4, the model made huge performance leaps across a wide range of tasks. Tasks for which generative AI is ill-suited today will likely fall within its frontier of competence soon—perhaps in the very near future. This is likely to happen as LLMs become multi-modal (going beyond text to include other formats of data), or as models grow larger, both of which increase the likelihood of unpredictable capabilities.

Given this lack of predictability, the only way to understand how generative AI will impact your business is to develop experimentation capabilities—to establish a “generative AI lab” of sorts that will enable you to keep pace with an expanding frontier. And as the technology changes, the collaboration model between humans and generative AI will have to change as well. Experimentation may yield some counterintuitive or even uncomfortable findings about your business, but it will also enable you to gain invaluable insights about how the technology can and should be used. We put our feet to the fire with this experiment—and we believe all business leaders should do the same.


Generative AI will likely change much of what we do and how we do it, and it will do so in ways that no one can anticipate. Success in the age of AI will largely depend on an organization’s ability to learn and change faster than it ever has before.

In addition to the collaborators from the academic team listed above, the authors would like to thank Clément Dumas, Gaurav Jha, Leonid Zhukov, Max Männig, and Maxime Courtaux for their helpful comments and suggestions. The authors would also like to thank Lebo Nthoiwa, Patrick Healy, Saud Almutairi, and Steven Randazzo for their efforts interviewing the experiment participants. The authors also thank all their BCG colleagues who volunteered to participate in this experiment.

Subscribe to our Artificial Intelligence E-Alert.


bhi-logo-image-gallery-2-tcm9-239323.jpg

O Instituto BCG Henderson é o think tank de estratégia do Boston Consulting Group, dedicado a explorar e desenvolver novas idéias valiosas a partir de negócios, tecnologia e ciência, adotando a poderosa tecnologia de idéias. O Instituto envolve os líderes em discussões e experimentações provocativas para expandir os limites da teoria e prática dos negócios e traduzir idéias inovadoras de dentro e além dos negócios. Para mais idéias e inspiração do instituto, visite nosso Site e siga -nos LinkedIn e X (anteriormente Twitter).

Autores

Alumnus

François Candelon

Alumnus

Principal

Lisa Krayer

Principal
Washington, DC

Líder do projeto, embaixador do Instituto BCG Henderson

Saran Rajendran

Líder do projeto, embaixador do Instituto BCG Henderson
São Francisco - Área da Baía

Diretor sênior, Instituto BCG Henderson

David Zuluaga Martínez

Diretor sênior, Instituto BCG Henderson
Nova Iorque

O que vem a seguir

Leia mais informações das equipes de especialistas do BCG. Capacidade
Salvo para Meu conteúdo salvo
Download Artigo
= Salvo para Meu conteúdo salvo
Download Artigo