Usando o uso de big data não estruturados e imperfeitos, pode fazer todo o sentido quando as empresas estão explorando oportunidades, como a criação de negócios dirigidos por dados e a tentativa de entender os clientes, produtos, produtos, produtos. No entanto, o uso de dados de baixa qualidade e mal gerenciados para tomar decisões de gerenciamento de alto impacto é cortejar o desastre. Lixo, lixo, conforme o antigo mantra da tecnologia. Neste mundo de pequenos dados, era difícil obter dados perfeitos, mas as empresas poderiam chegar perto. Com o Big Data, a qualidade dos dados mudou drasticamente. Grande parte dele chega na forma de linguagem natural "barulhenta" não estruturada, como atualizações de mídia social, ou em vários formatos incompatíveis de sensores, smartphones, bancos de dados e internet. Com uma pequena quantidade de esforço, as empresas geralmente podem encontrar um sinal em meio ao ruído. Mas, ao mesmo tempo, eles podem cair na grande armadilha de dados ruins: pensando que os dados são de melhor qualidade do que são. A governança de dados adequada deve se tornar uma prioridade para a suíte C, com certeza. Mas isso por si só não terá a casa de qualidade de dados de uma empresa em ordem. As empresas devem adotar uma abordagem sistemática para o que chamamos de "gerenciamento total de qualidade de dados".
Data once resided only in a core system that was managed and protected by the IT department. In this small-data world, it was hard to get perfect data, but companies could come close. With big data, the quality of data has changed dramatically. Much of it arrives in the form of unstructured, “noisy” natural language, such as social media updates, or in numerous incompatible formats from sensors, smartphones, databases, and the Internet. With a small amount of effort, companies can often find a signal amid the noise. But at the same time, they can fall into the big bad data trap: thinking that the data is of better quality than it is.
The causes of bad data often include faulty processes, ad hoc data policies, poor discipline in capturing and storing data, and external data providers that are outside a company’s control. Proper data governance must become a priority for the C suite, to be sure. But that alone won’t get a company’s data-quality house in order. Companies must adopt a systematic approach to what we call “total data-quality management.”
O impacto de grandes dados ruins
Descobrimos regularmente dados contraditórios, incorretos ou incompletos quando trabalhamos com empresas em projetos intensivos em informações. Independentemente do setor, geralmente as definições de dados de uma empresa são inconsistentes ou suas descrições de campo de dados (ou metadados) foram perdidas, reduzindo a utilidade dos dados para analistas de negócios e cientistas de dados. Às vezes, discrepâncias de dados entre várias partes de uma empresa fazem com que os executivos perdam a confiança na validade e precisão dos dados. Isso pode atrasar as decisões de missão crítica e iniciativas de negócios. Outras vezes, os membros da equipe desenvolvem arestas caras para corrigir dados de baixa qualidade. Um grande banco contratava 300 funcionários em período integral que fixavam registros financeiros todos os dias. Esse esforço custou US $ 50 milhões anualmente e aumentou o tempo necessário para fechar os livros. Nos piores casos, os clientes podem experimentar um serviço ruim, como erros de cobrança, ou os negócios podem sofrer de gargalos da cadeia de suprimentos ou produtos e remessas com defeito. O impacto é ampliado como dados ruins em cascata por meio de processos de negócios e alimenta a baixa tomada de decisões nos níveis mais altos. (Consulte o Anexo 1.)
Using poor-quality data has a number of repercussions. Sometimes data discrepancies among various parts of a business cause executives to lose trust in the validity and accuracy of the data. That can delay mission-critical decisions and business initiatives. Other times, staff members develop costly work-arounds to correct poor-quality data. A major bank hired 300 full-time employees who fixed financial records every day. This effort cost $50 million annually and lengthened the time needed to close the books. In the worst cases, customers may experience poor service, such as billing mistakes, or the business might suffer from supply chain bottlenecks or faulty products and shipments. The impact is magnified as bad data cascades through business processes and feeds poor decision making at the highest levels. (See Exhibit 1.)
Em particular, as empresas perdem rotineiramente oportunidades porque usam grandes dados de baixa qualidade para tomar grandes decisões executivas. De nossa experiência com 35 empresas, estimamos que o uso de sacrifícios de big data de baixa qualidade 25 % do potencial total ao tomar decisões em áreas como direcionamento de clientes, redução de débito ruim, venda cruzada e preços. Nossos cálculos mostram que receitas e ganhos antes de juros, impostos, depreciação e amortização podem ter sido 10 % mais altos se essas empresas tivessem dados de melhor qualidade. Mas os dados subjacentes continham apenas itens de linha de fatura; Faltava metadados importantes sobre como o banco havia calculado e aplicado taxas. Nos três meses necessários para corrigir os problemas de qualidade dos dados e implementar a estratégia de preços, a empresa perdeu mais de um quarto de seus lucros potenciais para o primeiro ano, igual a pelo menos US $ 15 milhões. Também perdeu a agilidade ao aproveitar uma OPP importante
A global financial institution conducted a big-data pilot project and identified what it thought was a pricing opportunity to increase margins by more than $50 million per year, or 10 percent of revenues. But the underlying data contained only invoice line items; it was missing important metadata about how the bank had calculated and applied fees. In the three months it took to correct the data quality issues and implement the pricing strategy, the company lost more than a quarter of its potential profits for the first year, equal to at least $15 million. It also lost agility in seizing an important opp
em tempos mais simples, empresas como essa podem basear as decisões em alguns conjuntos de dados, que eram relativamente fáceis de verificar. Agora, as organizações constroem milhares de variáveis em seus modelos; Pode ser muito complexo para verificar a precisão de todas as variáveis. Alguns modelos são tão difíceis de entender que os executivos sentem que devem confiar cegamente na lógica e nas entradas. (Ver "
How to Break Out of the Trap
As information becomes a core business asset with the potential to generate revenue from data-driven insights, companies must fundamentally change the way they approach data quality. (See “ Sete maneiras de lucrar com big data como empresa , ”Artigo do BCG, março de 2014.) Como em outras mudanças fundamentais, as mentiras devem ser alteradas, não apenas a tecnologia. Oportunidades. Uma abordagem sistematicamente criativa que chamamos de “pensamento em novas caixas” pode ajudar a desbloquear novas idéias questionando todos os dias
However, companies frequently struggle to prioritize data quality issues or feel they must tackle all of their problems at once. Instead, we propose executives take the following seven steps toward total data-quality management, a time-tested approach that weighs specific new uses for data against their business benefits.
Identify the opportunities. To find new uses for data, start by asking, “What questions do we want to answer?” A systematically creative approach we call “thinking in new boxes” can help unlock new ideas by questioning everyday
Outras abordagens, como examinar fontes de dados, KPIs de negócios e "pontos problemáticos", podem ser fontes ricas de inspiração. (Veja o “ Big data e além ”Coleção de artigos para uma amostra de oportunidades de alto impacto em uma variedade de indústrias.) Desenvolvimento, ou os problemas regulamentares que podem ser abordados. conforme estruturado e não estruturado. Antes de entrar na análise, no entanto, os melhores cientistas de dados e gerentes de negócios medem a qualidade dos dados necessários ao longo de uma variedade de dimensões, incluindo o seguinte:
After identifying a list of potential uses for data—such as determining which customers might buy additional products—prioritize the uses by weighing the benefits against the feasibility. Start with the opportunities that could have the biggest impact on the bottom line. Be sure to assess the benefits using multiple criteria, such as the value a data use can create, the new products or services that can be developed, or the regulatory issues that can be addressed. Then consider the uses for data in terms of technical, organizational, and data stewardship feasibility. Also look at how the data use fits in with the company’s existing project portfolio.
Determine the necessary types and quality of data. Effectively seizing opportunities may require multiple types of data, such as internal and third-party data, as well as multiple formats, such as structured and unstructured. Before jumping into the analysis, however, the best data scientists and business managers measure the quality of the required data along a range of dimensions, including the following:
- Validade, o grau em que os dados são os dados dos dados, os dados de que os dados são os dados lógicos, os dados de que os dados são os dados, os dados de que os dados são de que os dados são os que os dados, os dados são os dados, os dados são os dados dos dados, os dados de que os dados são de que os dados são os dados lógicos. Disponível
- Completeness, the degree to which the data required to make decisions, calculations, or inferences is available
- Consistência, o grau em que os dados são os mesmos em sua definição, regras de negócios, formato e valor a qualquer momento
- Accuracy, the degree to which data reflects reality
- Timeliness, the degree to which data reflects the latest available information
Each dimension should be weighted according to the business benefits it delivers, as explained in the previous step. We also recommend that companies use a multitier standard for quality. For example, financial applications require high-quality data; for bundling and cross-selling applications, however, good data can be good enough.
Define clear targets for improvement. The data-assessment process provides a baseline from which to improve the quality of data. For each data source, determine the target state per data quality dimension.
A gap analysis can reveal the difference between the baseline and target state for each data source and can inform an action plan to improve each data-quality dimension. Gaps can be made visible and tracked through a dashboard that color-codes performance for each of the major dimensions of data quality. (See Exhibit 2.)
Construa o negócio CAS e. Data quality comes at a price. To develop an argument for better-quality business data, companies must quantify the costs—direct and indirect—of using bad data as well as the potential of using good data. Direct costs can include, for example, additional head-count expenditures that result from inefficient processes, cleanup fees, and third-party data bills. Indirect costs can result from bad decisions, a lack of trust in the data, missed opportunities, the loss of agility in project execution, and the failure to meet regulatory requirements, among other things.
The upside of high-quality data can be significant, as the prioritization of particular uses makes clear. For example, microtargeting allows companies to reach “segments of one,” which can enable better pricing and more effective promotions, resulting in significantly improved margins. The more accurate the data, the closer an offer can come to hitting the target. For example, an Asian telecommunications operator began generating targeted offers through big-data modeling of its customers’ propensity to buy. The approach has reduced churn among its highest-value customers by 80 percent in 18 months.
With costs and benefits in hand, management can begin to build the case for changing what matters to the business. Only then can companies put in place the right controls, people, and processes.
Root out the causes of bad data. Many people think that managing data quality is simply about eliminating bad data from internal and external sources. People, processes, and technology, however, also affect the quality of data. All three may enable bad data to accumulate. For example, we have seen companies spend enormous amounts of time and money cleaning up data during the day that is overwritten at night.
Certain types of data quality issues can and must be fixed at the source, including those associated with financial information and operating metrics. To do that, companies may need to solve fundamental organizational challenges, such as a lack of incentives to do things right the first time. For example, a call center agent may have incentives to enter customer information quickly but not necessarily accurately, resulting in costly billing errors. Neither management nor the data entry personel feel what BCG senior partner Yves Morieux calls the “shadow of the future”—in this case, that entering inaccurate data negatively affects the overall customer
It may not be possible or economical to fix all data-quality issues, such as those associated with external data, at the source. In such cases, companies could employ middleware that effectively translates “bad data” into “usable data.” As an example, often the structured data in an accounts-payable system does not include sufficient detail to understand the exact commodity being purchased. Is an invoice coded “computing” for a desktop or a laptop? Work-arounds include text analytics that read the invoice text, categorize the purchase, and turn the conversion into a rule or model. The approach can be good enough for the intended uses and much more cost effective than rebuilding an entire enterprise-software data structure.
Assign a business owner to data. Data must be owned to become high quality. Companies can’t outsource this step. Someone on the business side needs to own the data, set the pace of change, and have the support of the C suite and the board of directors to resolve complex issues.
Many organizations think that if they define a new role, such as a data quality officer, their problems will be solved. A data- quality officer is a good choice for measuring and monitoring the state of data quality, but that is not all that needs to be done, which is why many companies create the position of business data owner. The person in this role ensures that data is of high quality and is used strategically throughout the organization.
Entre outras responsabilidades, o proprietário de dados de negócios é responsável pela definição geral de modelos de informação de ponta a ponta. Os modelos de informações incluem os dados mestre, os padrões de dados da transação e os metadados para conteúdo não estruturado. O proprietário se concentra em entregas e benefícios comerciais, não na tecnologia. A propriedade da empresa dos dados precisa estar em um nível alto o suficiente para ajudar a priorizar a questão da qualidade e gerar adesão, mas perto o suficiente dos detalhes para efetuar mudanças significativas. A transformação necessária às vezes é bastante fundamental para os negócios.
Os proprietários também devem garantir que a qualidade dos dados permaneça transparente. As empresas devem ter uma meta de 100 % em todas as dimensões de qualidade para dados de clientes, como nomes e endereços, e tornar esses dados acessíveis por meio de um sistema como um "mart de dados virtuais" que é distinto do armazenamento de dados de menor qualidade, como os escores de reputação. Muitos projetos de big data escolhem os dados da melhor qualidade para projetos piloto. Quando é hora de aplicar insights a áreas com níveis muito mais altos de dados ruins, os projetos descolam. Mas não perca de vista o jogo final: gerando um impacto nos negócios mensuráveis com dados confiáveis de alta qualidade. Antes do início da transformação, a empresa tinha um nível mínimo de governança de dados. Os dados foram bloqueados em sistemas e plataformas de TI concorrentes espalhados pela organização. A empresa tinha recursos limitados de monitoramento de desempenho em tempo real, contando principalmente com cockpits e painéis estáticos. Não possuía equipe de análise de análise avançada em toda a empresa. A empresa agora está começando a centralizar os dados em uma única fonte de alta qualidade e sob demanda usando um processo de coleta de dados mestres “One Touch”. Parte do plano também é melhorar a velocidade e a tomada de decisões com um cockpit em tempo real de informações de clientes confiáveis, acessíveis a milhares de gerentes usando um conjunto padronizado dos 25 principais KPIs. E a empresa está lançando um programa piloto em análise avançada para atuar como uma incubadora para o desenvolvimento de recursos de grandes dados em suas unidades de negócios e criando um caminho para um crescimento adicional. Por fim, está criando uma posição para um proprietário de dados de negócios que será responsável por governar, projetar e melhorar o modelo de informações da empresa. Imperativo
Scale what works. Data quality projects often run into problems when companies expand them across the business. Too many big-data projects cherry-pick the best quality data for pilot projects. When it’s time to apply insights to areas with much higher levels of bad data, the projects flounder.
To avoid the “big program” syndrome, start small, measure the results, gain trust in effective solutions, and iterate quickly to improve on what works. But don’t lose sight of the end game: generating measurable business impact with trusted high-quality data.
Consider the journey of an international consumer-goods company that wants to become a real-time enterprise that capitalizes on high-quality data. Before the transformation began, the company had a minimal level of data governance. Data was locked in competing IT systems and platforms scattered across the organization. The company had limited real-time performance-monitoring capabilities, relying mostly on static cockpits and dashboards. It had no company-wide advanced-analytics team.
To enable a total data-quality management strategy, the CEO created a central enterprise-information management (EIM) organization, an important element of the multiyear strategy to develop data the company could trust. The company is now beginning to centralize data into a single high-quality, on-demand source using a “one touch” master-data collection process. Part of the plan is also to improve speed and decision making with a real-time cockpit of trusted customer information that is accessible to thousands of managers using a standardized set of the top 25 KPIs. And the company is launching a pilot program in advanced analytics to act as an incubator for developing big-data capabilities in its business units and creating a path to additional growth. Finally, it is creating a position for a business data owner who will be responsible for governing, designing, and improving the company’s information model.
This multiyear transformation will be entirely self-funded from improved efficiencies, such as a projected 50 percent decrease in the number of employees who touch the master data and a 20 to 40 percent decline in the number of full-time information-management staff.
The Data Quality Imperative
dados de baixa qualidade sempre foram prejudiciais aos negócios. Mas com o surgimento de big data, as empresas correm o risco de aumentar o impacto das imprecisões e erros subjacentes e cair em uma grande armadilha de dados ruins. Os resultados de tais transformações podem ser realmente grandes.
Smart companies are beginning to take an end-to-end approach to data quality. The results from such transformations can be truly big.