JA

Quando agir em uma correlação e quando não David Ritter

Artigo
Salvo para Meu conteúdo salvo

"petabytes nos permitem dizer:‘ Correlação é suficiente. Por Chris Anderson em 2008 é um meme popular na comunidade de big data. "A causalidade está morta", dizem os padres da análise e do aprendizado de máquina. Eles argumentam que, dada evidência estatística suficiente, não é mais necessário entender por que as coisas acontecem - precisamos saber apenas o que as coisas acontecem juntas. Para os consumidores de big data, a questão -chave é "posso agir com base em uma descoberta de correlação?" A resposta a essa pergunta é “depende” - principalmente de dois fatores:

- Chris Anderson, Wired Magazine, June 23, 2008

The sentiment expressed by Chris Anderson in 2008 is a popular meme in the big data community. “Causality is dead,” say the priests of analytics and machine learning. They argue that given enough statistical evidence, it’s no longer necessary to understand why things happen—we need only know what things happen together.

But inquiring whether correlation is enough is asking the wrong question. For consumers of big data, the key question is “Can I take action on the basis of a correlation finding?” The answer to that question is “It depends”—primarily on two factors:

O primeiro fator - a confiança de que a correlação se repetirá - é uma função de duas coisas: a frequência com que a correlação ocorreu historicamente (mais frequentemente ocorrem os eventos na vida real, maior a probabilidade de estar conectado) e o entendimento sobre o que está causando esse achado estatístico. Esse segundo elemento - o que chamamos de "clareza da causalidade" - tempestades do fato de que quanto menos explicações possíveis existem para uma correlação, maior a probabilidade de que os dois eventos estejam de fato vinculados. Considerando a frequência e a clareza juntos produz um indicador mais confiável da confiança geral na descoberta do que avaliar apenas um ou outro isoladamente. A linha inferior: a causalidade pode importar tremendamente. E os esforços para obter uma melhor percepção sobre a causa de uma correlação podem aumentar o nível de confiança da ação. Se o valor da atuação for alto e o custo de agir quando errado estiver baixo, pode fazer sentido agir com base em uma correlação fraca. Optamos por procurar nos dois lados antes de atravessar a rua, porque o custo da aparência é baixo e a perda potencial por não olhar é alta (no jargão estatístico, o que é conhecido como "função de perda assimétrica"). Como alternativa, se a confiança na descoberta é baixa devido ao fato de você não ter como lidar com o motivo pelo qual dois eventos estão vinculados, você deve estar menos disposto a tomar ações que tenham uma desvantagem potencial significativa. Esses sensores detectam a quantidade de graxa que flui para o sistema de esgoto em vários locais em toda a cidade. Se os dados coletados mostrarem uma concentração de graxa em um local inesperado - talvez devido a um restaurante não licenciado - os oficiais enviarão um carro para determinar a fonte. A confiança no significado dos dados dos sensores está no lado baixo - pode haver muitas outras explicações para o excesso de influxo de graxa. Mas há pouco custo se a inspeção não acertar nada. A confiança de que os exames de sangue do PSA são um bom preditor de câncer é baixo porque a correlação em si é fraca - os níveis de PSA elevados são encontrados frequentemente em homens sem câncer de próstata. Também não há explicação causal clara de como o PSA está relacionado ao desenvolvimento do câncer. Além disso, a cirurgia preventiva motivada pelo teste não aumentou as taxas de sobrevivência a longo prazo. E o risco associado à triagem foi alto, com falsos positivos levando a um tratamento desnecessário e debilitante. O resultado: a American Medical Association reverteu sua recomendação anterior de que homens mais de 50 tenham exames de sangue de PSA de rotina. Isso entrou em jogo recentemente em uma parceria entre um supermercado australiano e uma companhia de seguros de automóveis. A combinação de dados do programa de cartões de fidelidade do supermercado com informações de reivindicações de automóveis revelou correlações interessantes. Os dados mostraram que as pessoas que compram carne vermelha e leite são bons riscos de seguro de carro, enquanto as pessoas que compram massas e espíritos e que alimentam seus carros à noite são riscos ruins. Embora esse relacionamento estatístico possa ser um indicador de comportamentos de risco (dirigindo sob a influência de espíritos, por exemplo), há várias outras razões possíveis para a descoberta. A abordagem da última, no entanto, pode levar a uma reação danificada pela marca, caso a prática seja exposta. Olhando para as duas opções por meio de nossa estrutura, deixa claro que, sem confiança adicional na descoberta, a abordagem anterior é preferível. ação de taxas crescentes. Por exemplo, os padrões de compra associados a riscos mais altos podem liderar indicadores de uma transição de vida iminente, como perda de emprego ou divórcio. Esta possível explicação pode ser testada adicionando dados adicionais à análise.

Understanding the interplay between the confidence level and the risk/reward tradeoff enables sound decisions on what action—if any—makes sense in light of a particular statistical finding. The bottom line: Causality can matter tremendously. And efforts to gain better insight on the cause of a correlation can drive up the confidence level of taking action.

These concepts allowed BCG to develop a prism through which any potential action can be evaluated. If the value of acting is high and the cost of acting when wrong is low, it can make sense to act based on even a weak correlation. We choose to look both ways before crossing the street because the cost of looking is low and the potential loss from not looking is high (in statistical jargon, what is known as “asymmetric loss function”). Alternatively, if the confidence in the finding is low due to the fact you don’t have a handle on why two events are linked, you should be less willing to take actions that have significant potential downside.

Consider the case of New York City’s sewer sensors. These sensors detect the amount of grease flowing into the sewer system at various locations throughout the city. If the data collected shows a concentration of grease at an unexpected location—perhaps due to an unlicensed restaurant—officials will send a car out to determine the source. The confidence in the meaning of the data from the sensors is on the low side–there may be many other explanations for the excess influx of grease. But there’s little cost if the inspection turns up nothing amiss.

Recent decisions around routine PSA screening tests for prostate cancer involved a very different risk/reward tradeoff. Confidence that PSA blood tests are a good predictor of cancer is low because the correlation itself is weak—elevated PSA levels are found often in men without prostate cancer. There is also no clear causal explanation for how PSA is related to the development of cancer. In addition, preventative surgery prompted by the test did not increase long-term survival rates. And the risk associated with screening was high, with false positives leading to unnecessary, debilitating treatment. The result: the American Medical Association reversed its previous recommendation that men over 50 have routine PSA blood tests.

Of course, there is usually not just one, but a range of possible actions in response to a statistical finding. This came into play recently in a partnership between an Australian supermarket and an auto insurance company. Combining data from the supermarket’s loyalty card program with auto claims information revealed interesting correlations. The data showed that people who buy red meat and milk are good car insurance risks while people who buy pasta and spirits and who fuel their cars at night are poor risks. Though this statistical relationship could be an indicator of risky behaviors (driving under the influence of spirits, for example), there are a number of other possible reasons for the finding.

Among the potential responses to the finding:

The latter approach, however, could lead to a brand-damaging backlash should the practice be exposed. Looking at the two options via our framework makes clear that without additional confidence in the finding, the former approach is preferable.

However, if we are able to find a clear causal explanation for this correlation, we may be able to increase confidence sufficiently to take the riskier, higher-value action of increasing rates. For example, the buying patterns associated with higher risks could be leading indicators of an impending life transition such as loss of employment or a divorce. This possible explanation could be tested by adding additional data to the analysis.

Nesse caso, a causalidade é crítica. Novos fatores podem ser potencialmente identificados que criam uma melhor compreensão da dinâmica no trabalho. O objetivo é descartar algumas causas possíveis e lançar luz sobre o que realmente está impulsionando essa correlação. Esse entendimento aumentará o nível geral de confiança de que a correlação continuará no futuro - mudando essencialmente as ações possíveis para a parte superior da estrutura. O resultado pode ser que as respostas previamente descartadas agora sejam apropriadas. Além disso, a visão sobre a causa de uma correlação pode permitir que você procure alterações que façam com que a ligação enfraqueça ou desapareça. E esse conhecimento possibilita monitorar e responder a eventos que possam fazer uma resposta anterior desatualizada. O Exército dos EUA, por exemplo, desenvolveu software de processamento de imagens que usa flashes de luz para localizar a possível posição de um atirador de elite. Mas flashes semelhantes também vêm de uma câmera. Com duas razões potenciais para o padrão de imagem, a confiança na descoberta é menor do que seria se houvesse apenas uma. E isso, é claro, determinará como responder - e que nível de risco de queda é aceitável.

There is no shortage of examples where the selection of the right response hinges on this “clarity of cause.” The U.S. army, for example, has developed image processing software that uses flashes of light to locate the possible position of a sniper. But similar flashes also come from a camera. With two potential reasons for the imaging pattern, the confidence in the finding is lower than it would be if there were just one. And that, of course, will determine how to respond—and what level of downside risk is acceptable.

Ao trabalhar com big data, às vezes a correlação é suficiente. Mas outras vezes, entender a causa é vital. A chave é saber quando a correlação é suficiente - e o que fazer quando não é.

Este blog apareceu originalmente  on  HBR.org .

Authors

Partner and Director

David Ritter

Parceiro e diretor
Boston

Conteúdo relacionado

Salvo para Meu conteúdo salvo
Salvo para Meu conteúdo salvo