IA generativa será um poderoso facilitador de vantagem competitiva para empresas que quebram o código de adoção. Em um experimento científico de primeira linha, descobrimos que, quando a Genai é usada da maneira certa e, para as tarefas certas, seus recursos são tais que os esforços das pessoas para melhorar a qualidade de sua produção podem sair pela culatra. Mas não é óbvio quando a nova tecnologia é (ou não é) uma boa opção, e as habilidades persuasivas da ferramenta dificultam a identificação de uma incompatibilidade. Isso pode ter sérias conseqüências: quando é usado da maneira errada, para as tarefas erradas, AI generativo Pode causar destruição significativa de valor.
We conducted our experiment with the support of a group of scholars from Harvard Business School, MIT Sloan School of Management, the Wharton School at the University of Pennsylvania, and the University of
The opportunity to boost performance is astonishing: When using generative AI (in our experiment, OpenAI’s GPT-4) for creative product innovation, a task involving ideation and content creation, around 90% of our participants improved their performance. What’s more, they converged on a level of performance that was 40% higher than that of those working on the same task without GPT-4. People best captured this upside when they did not attempt to improve the output that the technology generated.
Creative ideation sits firmly within GenAI’s current frontier of competence. When our participants used the technology for business problem solving, a capability outside this frontier, they performed 23% worse than those doing the task without GPT-4. And even participants who were warned about the possibility of wrong answers from the tool did not challenge its output.
When using GPT-4 for a task within the tool’s current frontier of competence, nearly all participants improved their performance. Those who used GPT-4 for a task outside this frontier performed worse than those who didn’t use the tool.
Nossas descobertas descrevem um paradoxo: as pessoas parecem desconfiar da tecnologia em áreas onde pode contribuir com valor maciço e confiar demais em áreas em que a tecnologia não é competente. Isso é preocupante por si só. Mas também descobrimos que, mesmo que as organizações mudem esses comportamentos, os líderes devem observar outras armadilhas em potencial: nosso estudo mostra que a produção relativamente uniforme da tecnologia pode reduzir a diversidade de pensamento de um grupo em 41%. Mas nossas descobertas apontam para um momento crucial de tomada de decisão para os líderes de todas as indústrias. Eles precisam pensar criticamente sobre o trabalho que sua organização faz e quais tarefas podem se beneficiar ou ser danificado pela IA generativa. Eles precisam abordar sua adoção como um esforço de gerenciamento de mudanças, abrangendo a infraestrutura de dados, testes e experimentação rigorosos e uma revisão das estratégias de talentos existentes. Talvez o mais importante, os líderes precisam revisitar continuamente suas decisões como a fronteira dos avanços da competência de Genai.
The precise magnitude of the effects we uncovered will be different in other settings. But our findings point to a crucial decision-making moment for leaders across industries. They need to think critically about the work their organization does and which tasks can benefit from or be damaged by generative AI. They need to approach its adoption as a change management effort spanning data infrastructure, rigorous testing and experimentation, and an overhaul of existing talent strategies. Perhaps most important, leaders need to continually revisit their decisions as the frontier of GenAI’s competence advances.
O valor em jogo
Nossas descobertas deixam claro que a adoção generativa da IA é uma espada de dois gumes. Em nosso experimento, os participantes que usam o GPT-4 para inovação criativa de produtos superaram o grupo de controle (aqueles que concluíram a tarefa sem usar o GPT-4) em 40%. Mas para a solução de problemas de negócios, o uso do GPT-4 resultou em desempenho 23% menor que o do grupo controle. (Consulte o Anexo 1.)

The creative product innovation task asked participants to come up with ideas for new products and go-to-market plans. The business problem-solving task asked participants to identify the root cause of a company’s challenges based on performance data and interviews with executives. (See “Our Experiment Design and Methodology.”) Perhaps somewhat counterintuitively, current GenAI models tend to do better on the first type of task; it is easier for LLMs to come up with creative, novel, or useful ideas based on the vast amounts of data on which they have been trained. Where there’s more room for error is when LLMs are asked to weigh nuanced qualitative and quantitative data to answer a complex question. Given this shortcoming, we as researchers knew that GPT-4 was likely to mislead participants if they relied completely on the tool, and not also on their own judgment, to arrive at the solution to the business problem-solving task (this task had a “right” answer).
Nosso design e metodologia do experimento
Task Design
Our experiment was designed around two sets of tasks, each completed by a separate group of participants.
The first set focused on creative product innovation. Participants were asked to brainstorm ideas for new products to solve an unmet need, develop the business case for each, create testing and launch plans, and write memos to persuade others to adopt the idea. The following are some of the questions that participants had to answer:
- Você está trabalhando para uma empresa de calçados na unidade que desenvolve novos produtos. Gere idéias para um novo sapato destinado a um mercado ou esporte específico que é mal atendido. Seja criativo e dê pelo menos dez idéias. Seja conciso, mas abrangente.
- Come up with a list of steps needed to launch the product. Be concise but comprehensive.
- Use seu melhor conhecimento para segmentar o mercado de calçados pelos usuários. Desenvolva um slogan de marketing para cada segmento que você está segmentando. Os participantes foram solicitados a identificar canais e marcas em uma empresa fictícia para otimizar sua receita e lucratividade, com base em notas de entrevistas com executivos (fictícios) da empresa e dados históricos de desempenho de negócios. A seguir, são apresentadas algumas das perguntas que os participantes tiveram que responder:
- Suggest three ways of testing whether your marketing slogan works well with the customers you have identified.
- Write marketing copy for a press release of the product.
- O CEO, Harold van Muylders, de Kleding (uma empresa fictícia) gostaria de entender o desempenho das três marcas da empresa (Kleding Man, Kleding Woman e Kleding Kids) para descobrir problemas e mais profundamente. Encontre entrevistas em anexo de insiders da empresa. Além disso, a planilha do Excel anexada fornece dados financeiros divididos pelas marcas. Qual é a lógica para essa escolha? Apoie suas opiniões com dados e/ou citações de entrevista.
- Using this information, if the CEO must pick one brand to focus on and invest in to drive revenue growth in the company, what brand should that be? What is the rationale for this choice? Please support your views with data and/or interview quotations.
The creative product innovation task was designed to play to GPT-4’s strengths as an LLM, primarily because it involved creativity, refinement, and persuasive writing, which are within GPT-4’s frontier of capability. The business problem-solving task was explicitly designed to be difficult for GPT-4 to complete. This task, which contains a clear right answer, was designed to be complex enough to ensure that GPT-4’s answer on a first pass would be incorrect. Participants could solve the business problem-solving task either by relying on their own judgment to tease out the nuances in the questions and data provided or by prompting GPT-4 to better “think through” the problem.
Measuring Baseline Proficiency
Before attempting the experimental task, each participant also solved a baseline task without the use of any AI tool. This task was designed to be very similar to the experimental task in terms of difficulty and the skills it tested for.
By evaluating performance on this baseline task using the same grading rubric as the experimental task (see below), we were able to create a sense of each participant’s baseline proficiency in the specific task type. This then enabled us to understand how GPT-4 use affected relative performance across individuals with different levels of baseline proficiency.
Grading Rubric
Each set of tasks had its own grading rubric:
For creative product innovation, participants were graded on a scale of 1 to 10, on four dimensions: creativity, persuasive writing, analytical thinking, and overall writing skills. Overall performance was calculated as the average of the four dimensions.
For business problem solving, participants were graded on the correctness of the response (that is, which channel or brand is most likely to boost revenue or profitability for the fictitious company). Performance was assessed as a binary grade (correct or incorrect).
Experimental Treatment Design
Each of the 758 participants in the experiment was randomly assigned to one of the two sets of tasks (creative product innovation or business problem solving), controlling for key demographic variables. Within each set of tasks, participants were then randomized into three groups:
- Grupo A: Aqueles que usaram o GPT-4 para resolver a tarefa após um treinamento de 30 minutos em práticas recomendadas no uso do GPT-4 (consulte a barra lateral em treinamento). GPT-4 para resolver a tarefa (grupo de controle). No total, 99% dos participantes dos grupos A e B-aqueles com acesso ao GPT-4-de fato usaram a ferramenta para concluir as tarefas. Para que este experimento capture completamente como os participantes podem se comportar no mundo real, uma estrutura de incentivo substancial foi implementada para garantir que os participantes fizessem o possível para resolver cada tarefa. A conclusão bem -sucedida do experimento foi rastreada e finalmente considerada nos bônus anuais de desempenho dos participantes. Além disso, os 20% dos melhores desempenhos foram chamados especificamente aos seus gerentes para incentivar ainda mais o alto desempenho. Os alunos da humanidade estavam "cegos", pois não sabiam se a produção era de participantes que usaram o GPT-4 ou não. Além disso, foram feitas tarefas de classificação de tal maneira que os efeitos fixos específicos do aluno (alguns alunos são naturalmente mais adversos que outros) foram controlados, garantindo que os resultados não fossem tendenciosos dessa maneira. As notas geradas por seres humanos coincidiram em grande parte com os graus GPT-4, levando às mesmas sugestões do experimento. De acordo com a prática acadêmica padrão, confiamos principalmente em notas geradas pelo ser humano para as análises apresentadas aqui, exceto para aqueles que preocupam as mudanças na distribuição entre as tarefas de linha de base e experimentais. Para as últimas análises, em particular, confiamos nas séries GPT-4 para maximizar a consistência nas tarefas de linha de base e experimentais (no sistema de classificação gerado pelo ser humano, diferentes grades podem ter pontuado as submissões de linha de base e experimentais para o mesmo participante).
- Group B: Those who used GPT-4 to solve the task without any training.
- Group C: Those who did not use GPT-4 to solve the task (control group).
Incentive Structure
A cornerstone of this experiment is its proximity to real-world tasks performed by business professionals. For this experiment to fully capture how participants may behave in the real world, a substantial incentive structure was put in place to ensure that participants would do their best to solve each task.
To ensure this, participation in this experiment was noted in participants’ bi-annual performance reviews. Successful completion of the experiment was tracked and ultimately factored into participants’ annual performance bonuses. In addition, top 20% performers were specifically called out to their managers to further incentivize high performance.
Grading Methodologies
For both the baseline and the experimental tasks, the output from participants was graded by humans (a combination of BCG consultants and business school students with experience grading academic assignments). The human graders were “blinded,” in that they did not know whether the output was from participants who used GPT-4 or not. Furthermore, grading assignments were made in such a way that grader-specific fixed effects (some graders are naturally harsher than others) were controlled for, ensuring that the results were not biased in that way.
We also used GPT-4 to independently grade performance on all tasks, using the same rubric as the human graders. Human-generated grades largely coincided with GPT-4 grades, leading to the same takeaways from the experiment. In line with standard academic practice, we primarily relied on human-generated grades for the analyses presented here, except for those that concern changes in distribution between baseline and experimental tasks. For the latter analyses in particular, we relied on the GPT-4 grades to maximize consistency across baseline and experimental tasks (in the human-generated grading system, different graders may have scored the baseline and experimental submissions for the same participant).
Para uma descrição mais detalhada do projeto experimental, consulte o nosso Artigo acadêmico Sobre o tópico.
Também sabíamos que os participantes eram capazes de encontrar a resposta para a tarefa de solução de problemas de negócios por conta própria: 85% dos participantes do grupo de controle o fizeram. No entanto, muitos participantes que usaram o GPT-4 para esta tarefa aceitaram a saída errônea da ferramenta pelo valor nominal. É provável que a capacidade do GPT-4 de gerar conteúdo persuasivo tenha contribuído para esse resultado. Em nossas conversas informais com os participantes, muitos confirmaram que encontraram a lógica GPT-4 oferecida para sua produção muito convincente (embora, como um LLM, ele tenha apresentado a lógica após a recomendação, em vez de criar a recomendação com base na lógica). (No início do experimento, os participantes concluíram uma tarefa de linha de base sem usar o GPT-4 que então classificamos e classificamos; veja a barra lateral em nosso design e metodologia). Isso tem uma ressalva importante: quanto menor a proficiência na linha de base do indivíduo, mais significativo o efeito tendia a ser; Para a tarefa de inovação de produtos criativos, esses indivíduos aumentaram o desempenho em 43%. Ainda assim, o efeito foi material, mesmo para os artistas de linha de base mais bem classificados, entre os quais a vantagem e a desvantagem do uso do GPT-4 nas duas tarefas foi de 17% e -17%, respectivamente. (Veja o Anexo 2.) (Em todo o tempo, nossa discussão sobre o desempenho dos participantes não é indicativa de seus níveis absolutos de competência e talentos em relação a essas ou outras tarefas.)
The double-edged-sword effect holds across all levels of baseline proficiency. (At the start of the experiment, participants completed a baseline task without using GPT-4 that we then graded and ranked; see the sidebar on our design and methodology). This has an important caveat: The lower the individual’s baseline proficiency, the more significant the effect tended to be; for the creative product innovation task, these individuals boosted performance by 43%. Still, the effect was material even for the top-ranked baseline performers, among whom the upside and downside of using GPT-4 on the two tasks were 17% and -17%, respectively. (See Exhibit 2.) (Throughout, our discussion of participants’ performance is not indicative of their absolute levels of competence and talents with respect to these or other tasks.)

The strong connection between performance and the context in which generative AI is used raises an important question about training: Can the risk of value destruction be mitigated by helping people understand how well-suited the technology is for a given task? It would be rational to assume that if participants knew the limitations of GPT-4, they would know not to use it, or would use it differently, in those situations.
Our findings suggest that it may not be that simple. The negative effects of GPT-4 on the business problem-solving task did not disappear when subjects were given an overview of how to prompt GPT-4 and of the technology’s limitations. (See “Our Use of Training in the Experiment.”)
Nosso uso do treinamento no experimento
Participants in the business problem-solving task were informed of the challenges and pitfalls of using GPT-4 in a problem-solving context. They were shown an example of how GPT-4 can fail at reasoning and cautioned against relying heavily on GPT-4 for such tasks.
ainda mais intrigante, eles foram consideravelmente piores, em média, do que aqueles que não receberam esse treinamento simples antes de usar o GPT-4 para a mesma tarefa. (Veja o Anexo 3.) Este resultado não implica que todo o treinamento seja ineficaz. Mas isso nos levou a considerar se esse efeito foi o resultado da excesso de confiança dos participantes em suas próprias habilidades para usar o GPT-4-pessoalmente porque eles foram treinados. de como a IA generativa afeta os indivíduos. Quando olhamos para trás das médias, descobrimos que o uso do GPT-4 tem dois efeitos distintos na distribuição de desempenho individual. (Veja o Anexo 4.) Primeiro, toda a distribuição muda para a direita, em direção a níveis mais altos de desempenho. Isso ressalta o fato de que o impulso de desempenho de 40% discutido acima não é uma função de outliers "positivos". Quase todos os participantes (cerca de 90%), independentemente de sua proficiência na linha de base, produziram resultados de maior qualidade ao usar o GPT-4 para a tarefa de inovação de produtos criativos. Segundo, a variação no desempenho é dramaticamente reduzida: uma parcela muito mais alta de nossos participantes realizados no nível médio ou muito próximo ao nível médio.

New Opportunities for Human Talent
Effects at the group level, like the ones discussed above, aren’t necessarily indicative of how generative AI impacts individuals. When we look behind the averages, we find that the use of GPT-4 has two distinct effects on individual performance distribution. (See Exhibit 4.) First, the entire distribution shifts to the right, toward higher levels of performance. This underscores the fact that the 40% performance boost discussed above is not a function of “positive” outliers. Nearly all participants (around 90%), irrespective of their baseline proficiency, produced higher-quality results when using GPT-4 for the creative product innovation task. Second, the variance in performance is dramatically reduced: A much higher share of our participants performed at or very close to the average level.

Em outras palavras, os participantes com menor proficiência na linha de base, quando recebidos acesso a IA generativos, acabaram sendo quase combinando com aqueles com maior proficiência na linha de base. Ser mais proficiente sem o auxílio da tecnologia não dá uma grande vantagem quando todos podem usar o GPT-4 para executar uma tarefa de inovação criativa de produtos. (Veja o Anexo 5.) O fato de termos observado esse efeito entre nossa amostra bem-educada e de alto desempenho sugere que ela pode ser ainda mais pronunciada em contextos mais heterogêneos, com uma propagação mais ampla na proficiência. De desempenho na tarefa de inovação de produtos criativos, parece que a pessoa comum não é capaz de melhorar a produção da tecnologia. De fato, os esforços humanos para aprimorar as saídas do GPT-4 diminuem a qualidade. (Veja a barra lateral em nosso design e metodologia para uma descrição de como medimos a qualidade.) Descobrimos que a saída GPT-4 de "cópia" se correlacionava fortemente com o desempenho: quanto mais a submissão final de um participante na tarefa de inovação de produtos criativos se afastou do rascunho do GPT-4, maior a probabilidade de se atrasar na qualidade. (Veja o Anexo 6.) Para cada aumento de 10% na divergência do rascunho do GPT-4, os participantes, em média, caíram no ranking de qualidade em cerca de 17 pontos percentuais. Além da fronteira das principais competências da tecnologia. Em geral, eles não se sentiram ameaçados pela IA generativa; Em vez disso, eles ficaram empolgados com essa mudança em seus papéis e adotaram a idéia de assumir tarefas que apenas os humanos podem fazer. Como um participante observou: "Acho que há muito valor agregado no que podemos fazer como seres humanos. Você precisa de um humano para adaptar uma resposta ao contexto de uma empresa; esse processo não pode ser substituído pela IA". Outro observou: "Eu acho que é uma oportunidade de fazer as coisas com mais eficiência, parar de perder tempo em coisas muito repetitivas e realmente se concentrar no que é importante, o que é mais estratégico". Outros profissionais podem sentir maior medo ou ter mais dificuldade em adaptar seu papel à nova tecnologia. Como o GPT-4 fornece respostas com um significado muito semelhante e, novamente, aos mesmos tipos de instruções, a saída fornecida pelos participantes que usavam a tecnologia era individualmente melhor, mas coletivamente repetitiva. A diversidade de idéias entre os participantes que usaram o GPT-4 para a tarefa de inovação de produtos criativos foi 41% menor em comparação com o grupo que não usava a tecnologia. (Veja o Anexo 7.) As pessoas não adicionaram apreciavelmente à diversidade de idéias, mesmo quando editaram a produção do GPT-4. Aproximadamente 70% acreditam que o uso extensivo do GPT-4 pode sufocar suas habilidades criativas ao longo do tempo. (Veja o Anexo 8.) Como um participante explicou: "Como qualquer tecnologia, as pessoas podem confiar muito nela. O GPS ajudou a navegar imensamente quando foi lançado pela primeira vez, mas hoje as pessoas nem conseguem dirigir sem um GPS. Como as pessoas confiam demais em uma tecnologia, elas perdem habilidades que tinham uma vez." Outro participante observou: "Esse [fenômeno] é definitivamente uma preocupação para mim. Se eu me tornar muito dependente do GPT, enfraquecerá meus músculos de criatividade. Isso já aconteceu comigo durante o experimento". As empresas precisarão estar atentos a seus

Digging deeper, we find that because GPT-4 reaches such a high level of performance on the creative product innovation task, it seems that the average person is not able to improve the technology’s output. In fact, human efforts to enhance GPT-4 outputs decrease quality. (See the sidebar on our design and methodology for a description of how we measured quality.) We found that “copy-pasting” GPT-4 output strongly correlated with performance: The more a participant’s final submission in the creative product innovation task departed from GPT-4’s draft, the more likely it was to lag in quality. (See Exhibit 6.) For every 10% increase in divergence from GPT-4’s draft, participants on average dropped in the quality ranking by around 17 percentile points.

It appears that the primary locus of human-driven value creation lies not in enhancing generative AI where it is already great, but in focusing on tasks beyond the frontier of the technology’s core competencies.
Interestingly, we found that most of our participants seemed to grasp this point intuitively. In general, they did not feel threatened by generative AI; rather, they were excited by this change in their roles and embraced the idea of taking on tasks that only humans can do. As one participant observed, “I think there is a lot of value add in what we can do as humans. You need a human to adapt an answer to a business’s context; that process cannot be replaced by AI.” Another noted, “I think it’s an opportunity to do things more efficiently, to stop wasting time on things that are very repetitive and actually focus on what’s important, which is more strategic.”
However, it is worth keeping in mind the population of this study: highly skilled young knowledge workers who are more likely to be able to make this transition easily. Other professionals may feel greater fear or experience more difficulty adapting their role to the new technology.
The Creativity Trap
Even if you use GenAI in the right way, and for the right tasks, our research suggests that there are risks to creativity.
The first risk is a tradeoff between individual performance gains and collective creativity loss. Because GPT-4 provides responses with very similar meaning time and again to the same sorts of prompts, the output provided by participants who used the technology was individually better but collectively repetitive. The diversity of ideas among participants who used GPT-4 for the creative product innovation task was 41% lower compared with the group that did not use the technology. (See Exhibit 7.) People didn’t appreciably add to the diversity of ideas even when they edited GPT-4’s output.

The second risk is drawn from a sample of our interviews with participants. Roughly 70% believe that extensive use of GPT-4 may stifle their creative abilities over time. (See Exhibit 8.) As one participant explained, “Like any technology, people can rely on it too much. GPS helped navigation immensely when it was first released, but today people can’t even drive without a GPS. As people rely on a technology too much, they lose abilities they once had.” Another participant noted, “This [phenomenon] is definitely a concern for me. If I become too reliant on GPT, it will weaken my creativity muscles. This already happened to me during the experiment.” Businesses will need to be mindful of their Percepções e atitudes dos funcionários sobre a IA generativa , e como isso pode afetar sua capacidade de impulsionar a inovação e agregar valor.

ainda não temos dados para confirmar as percepções de nossos participantes; Este é um tópico para um estudo posterior. Mas se as preocupações dos funcionários se destacam, isso poderá agravar o risco em nível de grupo. Especificamente, a perda da diversidade coletiva de idéias pode ser exacerbada se os funcionários sofrerem alguma atrofia da criatividade individual. vantagem.
The Generative AI Change Imperative
Inspired by the findings from our research, we envision a series of questions, challenges, and options that can help business leaders make generative AI adoption a source of differentiation—and, as such, an enabler of sustained competitive advantage.
Estratégia de dados. Mas se várias empresas aplicarem a tecnologia em conjuntos de tarefas semelhantes, ela poderá produzir um efeito de nivelamento entre as organizações análogas ao padrão observado entre os participantes em nosso experimento. Como resultado, uma das chaves da diferenciação será a capacidade de ajustar os modelos generativos de IA com grandes volumes de dados específicos de alta qualidade e específicos da empresa. Any company that incorporates GenAI can realize significant efficiency gains in areas where the technology is competent. But if multiple firms apply the technology across similar sets of tasks, it can produce a leveling effect among organizations analogous to the pattern observed among participants in our experiment. As a result, one of the keys to differentiation will be the ability to fine-tune generative AI models with large volumes of high-quality, firm-specific data.
Isso é mais fácil dizer do que fazer. Em nossa experiência, nem todas as empresas têm os recursos avançados de infraestrutura de dados necessários para processar seus dados proprietários. Desenvolver essas capacidades tem sido um foco essencial das transformações de IA, mas com a chegada de IA generativa, torna -se ainda mais importante: como Argumentamos em outro lugar , o poder de Genai geralmente reside na identificação de manchas e correlações inesperadas - até contra -intuitivas -. Para colher esses benefícios, as empresas precisam de um pipeline de dados abrangente, combinado com um foco renovado no desenvolvimento de recursos de engenharia de dados internos. Instead of the default assumption that technology creates a helpful first draft that requires revision, people should regard the output as a plausible final draft that they should check against firm-established guardrails but otherwise largely leave as is.
Roles and Workflows. For tasks that generative AI systems have mastered—which, of course, is an ever-expanding list—people need to radically revise their mindset and their approach to work. Instead of the default assumption that technology creates a helpful first draft that requires revision, people should regard the output as a plausible final draft that they should check against firm-established guardrails but otherwise largely leave as is.
The value at stake lies not only in the promise of greater efficiency but also in the possibility for people to redirect time, energy, and effort away from tasks that generative AI will take over. Os funcionários poderão dobrar as tarefas que permanecerão além da fronteira dessa tecnologia, atingindo níveis mais altos de proficiência.
The value at stake lies not only in the promise of greater efficiency but also in the possibility for people to redirect time, energy, and effort away from tasks that generative AI will take over.
girando as lentes sobre nós mesmos, já podemos imaginar nossos funcionários gastando menos tempo resumindo manualmente pesquisas ou polindo slides e investindo ainda mais esforços para impulsionar iniciativas complexas de gerenciamento de mudanças. O impacto da interrupção generativa da IA variará drasticamente nas categorias de empregos. Mas pelo menos alguns trabalhadores - incluindo a maioria de nossos participantes - estão confrontando essa perspectiva com otimismo. Leve as pessoas para definir o que e como a IA generativa será usada. Mas não é óbvio quais capacidades humanas são mais adequadas para maximizar o valor da ferramenta ou com que frequência esses recursos mudarão. Estamos vendo essa incerteza em tempo real em relação ao LLMS: o papel do "engenheiro rápido" não existia há um ano, mas a demanda por esse papel durante o segundo trimestre de 2023 foi quase sete vezes maior do que estava em
Strategic Workforce Planning. To get the AI–human dynamics right in complex organizations, leaders must grapple with four questions that have no easy answers:
- Which capabilities will you need? As with any other technology, it will take people to define what and how generative AI will be used. But it isn’t obvious which human capabilities are best suited to maximizing the tool’s value or how often these capabilities will change. We’re seeing this uncertainty play out in real time with respect to LLMs: The role of “prompt engineer” didn’t exist a year ago, but demand for this role during Q2 2023 was nearly seven times higher than it was in
Q1. 2 2 Análise BCG com base nas publicações globais de emprego na plataforma Lightcast (anteriormente Burningglass) até 24/24/2023. (O GPT-4 foi lançado no final do primeiro trimestre, em 14 de março de 2023.) E, no entanto, os engenheiros rápidos podem não ser mais necessários quando a própria IA generativa dominar a tarefa de dividir problemas complexos em instruções ideais (como parece que em breve será com agentes autônomos). Mesmo a seleção do Optimal LLMS para aplicações de negócios específicas, que são amplamente feitas pelos seres humanos atualmente, poderá no futuro ser terceirizado para os próprios sistemas de IA. - Qual é a sua estratégia de contratação? Por exemplo, algumas pessoas podem ter uma proficiência basal menor para um tipo de tarefa, sendo bastante capaz de fazer parceria com a IA generativa para superar os colegas. Encontrar esses indivíduos será um objetivo importante para futuras estratégias de talentos, mas as características subjacentes ainda não estão claramente identificadas. O treinamento eficaz provavelmente precisará abordar explicitamente quaisquer preconceitos cognitivos que possam levar as pessoas a serem consideradas uma IA generativa em situações em que a tecnologia ainda não atingiu o nível certo de competência. Como os funcionários podem gerenciar efetivamente a tecnologia para tarefas que eles mesmos não aprenderam a fazer por conta própria? Because generative AI is a great leveler of proficiency on certain tasks, raw talent may not be a good predictor of high performance in a world of widespread GenAI use. For example, some people may have lower baseline proficiency for a type of task while being quite capable of partnering with generative AI to outperform peers. Finding these individuals will be an important goal for future talent strategies, but the underlying traits are not yet clearly identified.
How will you train people effectively? As our findings indicate, straightforward training won’t be sufficient. Effective training will likely need to explicitly address any cognitive biases that may lead people to over-rely on generative AI in situations where the technology has not yet reached the right level of competence.
We also see a potentially deeper issue: Even as certain tasks are fully handed over to GenAI, some degree of human oversight will be necessary. How can employees effectively manage the technology for tasks that they themselves have not learned how to do on their own?
- Como você cultivará a diversidade de pensamento? Nossos resultados sugerem que Genai diminui a criatividade coletiva, limitando a gama de perspectivas que os indivíduos trazem para a mesa. Essa perda na diversidade de pensamentos pode ter efeitos ripplos além do que podemos imaginar atualmente. Um risco plausível é que ele possa reduzir a capacidade de inovação de longo prazo das organizações-por exemplo, tornando a ideação mais homogênea. É uma ladeira escorregadia, pois um declínio nas capacidades de inovação significa menos diferenciação dos concorrentes, o que pode impedir o potencial de crescimento. A boa notícia é que as idéias que os seres humanos geram por conta própria e as idéias que eles geram quando assistidos pela IA generativa são muito diferentes. Deixando de lado o grau de diversidade em cada grupo, quando comparamos a produção dos grupos de controle e experimental, a sobreposição (similaridade semântica) foi inferior a 10%. A chave para os líderes será usar as duas abordagens à ideação-que, em última análise, criará um círculo ainda mais amplo de idéias.
Experimentação e teste. As tarefas para as quais a IA generativa é inadequada hoje provavelmente estará dentro de sua fronteira de competência em breve-talvez em um futuro muito próximo. É provável que isso aconteça à medida que os LLMs se tornam multimodais (indo além do texto para incluir outros formatos de dados) ou à medida que os modelos aumentam, os quais aumentam a probabilidade de recursos imprevisíveis. expandindo a fronteira. E à medida que a tecnologia muda, o modelo de colaboração entre humanos e IA generativa também terá que mudar. A experimentação pode produzir algumas descobertas contra -intuitivas ou até desconfortáveis sobre o seu negócio, mas também permitirá que você obtenha informações inestimáveis sobre como a tecnologia pode e deve ser usada. Colocamos os pés no fogo com esse experimento - e acreditamos que todos os líderes empresariais devem fazer o mesmo. O sucesso na era da IA dependerá amplamente da capacidade de uma organização de aprender e mudar mais rápido do que nunca. Os autores também gostariam de agradecer a Lebo Nthoiwa, Patrick Healy, Saud Almutairi e Steven Randazzo por seus esforços entrevistando os participantes do experimento. Os autores também agradecem a todos os seus colegas do BCG que se ofereceram para participar deste experimento. Inscreva -se Generative AI systems continue to develop at a stunning rate: In just the few months between the releases of OpenAI’s GPT-3.5 and GPT-4, the model made huge performance leaps across a wide range of tasks. Tasks for which generative AI is ill-suited today will likely fall within its frontier of competence soon—perhaps in the very near future. This is likely to happen as LLMs become multi-modal (going beyond text to include other formats of data), or as models grow larger, both of which increase the likelihood of unpredictable capabilities.
Given this lack of predictability, the only way to understand how generative AI will impact your business is to develop experimentation capabilities—to establish a “generative AI lab” of sorts that will enable you to keep pace with an expanding frontier. And as the technology changes, the collaboration model between humans and generative AI will have to change as well. Experimentation may yield some counterintuitive or even uncomfortable findings about your business, but it will also enable you to gain invaluable insights about how the technology can and should be used. We put our feet to the fire with this experiment—and we believe all business leaders should do the same.
Generative AI will likely change much of what we do and how we do it, and it will do so in ways that no one can anticipate. Success in the age of AI will largely depend on an organization’s ability to learn and change faster than it ever has before.
In addition to the collaborators from the academic team listed above, the authors would like to thank Clément Dumas, Gaurav Jha, Leonid Zhukov, Max Männig, and Maxime Courtaux for their helpful comments and suggestions. The authors would also like to thank Lebo Nthoiwa, Patrick Healy, Saud Almutairi, and Steven Randazzo for their efforts interviewing the experiment participants. The authors also thank all their BCG colleagues who volunteered to participate in this experiment.