Empresas que combinam engenharia de confiabilidade do local com IA e aprendizado de máquina podem superar o aumento da complexidade e instabilidade causado por sistemas de TI ineficientes e superficiais. E, à medida que a digitalização em larga escala aciona o uso expandido dos sistemas de TI existentes-principalmente em novos processos, aplicativos e programas-e vários integrações de sistemas geram inconsistências na implementação, a situação provavelmente piorará. No entanto, apesar do aumento da complexidade e instabilidade que resulta em sistemas de TI legados e em diversas arquiteturas de TI, muitas empresas cometem o erro de investigar a tecnologia. Eles consideram erroneamente que isso é independente das metas de negócios estratégicas de uma organização e, assim, veem os orçamentos de TI como frutos de baixa altura quando os custos precisam ser reduzidos. Com o tempo, é claro, isso apenas coloca as operações de TI mais atrás da curva. Com o SRE, grandes aplicações e sistemas de TI que foram historicamente tratados - geralmente manualmente - por equipes de operações são divididas em microsserviços e gerenciadas separadamente, geralmente por software sem envolvimento humano. O SRE torna o operações diárias de TI mais rápido, menos propenso a falhas e mais escaláveis. Avarias e desempenho atrasado, aumentando assim a qualidade do serviço. Quando as empresas adotam essa abordagem, ela pode realizar seu verdadeiro potencial e agregar um valor significativo à organização através de cinco características cruciais:
Many IT systems are outmoded and inefficient, often impeding the overall financial performance and productivity of an organization. And as wide-scale digitization drives expanded use of existing IT systems—particularly in new processes, apps, and programs—and multiple systems integrations generate inconsistencies in implementation, the situation is likely to get worse. Yet despite the increased complexity and instability that results in legacy IT systems and diverse IT architectures, many companies make the mistake of underinvesting in technology. They wrongly consider IT to be independent from an organization’s strategic business goals and thus view IT budgets as low-hanging fruit when costs need to be reduced. Over time, of course, this only puts IT operations further behind the curve.
To overcome these issues, companies can adopt an approach that combines two essential elements of modern IT management:
- Site reliability engineering (SRE) uses flexible, modular software along with software engineering techniques, including automation, to manage systems and automate operational tasks. With SRE, large IT applications and systems that have historically been handled—often manually—by operations teams are instead broken down into microservices and managed separately, usually by software itself without human involvement. SRE makes daily IT operations faster, less prone to failure, and more scalable.
- Artificial Intelligence for IT Operations (AIOps) leverages AI engines to autonomously handle proactive troubleshooting, upgrades, modernization, and improvements in service performance.
This approach is successful because it addresses the root causes of IT system instability, breakdowns, and lagging performance, thus enhancing the quality of service. When companies adopt this approach, IT can realize its true potential and add significant value to the organization through five crucial characteristics:
- Tempo rápido para o mercado, Implementando mudanças em sistemas, serviços e produtos em dias e horas em vez de meses
- Resilience, | Manutenção relying on intelligent, proactive, and automated recovery, repairs, and maintenance
- Eficiência de custo, Automatando tarefas que agregam pouco valor
- segurança, Fornecendo o cliente de ponta a ponta e a melhoria do cliente em que o WELLEST RELATIONS APLICATIVOS EMPERNATOS EMPRESSIMENTES EMPRESSIMENTES EMPRESSIONS EMPERNATOS EM RESPENDIMENTOS EMPRESSOS APLIATIVOS E PROPRESENTO E PROGRAMANTES E PROGRAMANTES E PRODESSORES e e
- Business process improvement, responding quickly with apps, programs, and quality-of-service levels that directly serve both internal user and external customer expectations as well as improve business performance and OPERAÇÕES
Os benefícios de uma estrutura SRE
As consequências dos sistemas de TI obsoletos e ineficientes são fáceis de ver. Eles incluem um número crescente de interrupções de serviço e ataques cibernéticos bem-sucedidos, além de falhas no estabelecimento de acordos de trabalho remoto confiáveis e acesso a arquivos e informações críticas durante a pandemia atual. Em uma instituição financeira, por exemplo, observamos um aumento de 170% nas tentativas de fraude no auge do surto de vírus. Além disso, resultados fracos dos KPIs que medem a satisfação do cliente também podem ser responsabilizados por soluços que interrompem as interações perfeitas do cliente.
Sistemas de envelhecimento também causaram falhas no computador. Em fevereiro de 2021, no que foi chamado de "erro operacional", o sistema Federal Reserve dos EUA, que os bancos usam para transferir dinheiro um para o outro, caiu por várias horas, afetando bilhões de dólares em transações. E cerca de um terço das empresas europeias de tecnologia financeira enfrentou escrutínio dos reguladores devido a preocupações com a confiabilidade dos sistemas de computadores em seus bancos parceiros.
SRE, which ultimately focuses on reducing technology complexity, costs, inefficiency, and unreliability, can help organizations overcome these challenges and continue to grow and perform at a proficient level.
SRE pode ajudar as organizações a superar os desafios e continuar a crescer e funcionar em um nível proficiente.
Em nossos compromissos com clientes, vimos inúmeras instâncias de sistemas de décadas que suportam sites ultramodernos voltados para o cliente. Esses sistemas podem desacelerar a atividade no site de uma empresa e em sua rede, tornando o cliente ou a experiência do usuário interno mais frustrante e propenso a erros. Eles também contrabandeam recursos de manutenção e gerenciamento de TI, gerando uma cascata de vulnerabilidade em outras partes da rede de TI. Além disso, as operações herdadas de TI requerem correções e redefinições constantes, demoradas e manuais. Para implementar uma alteração do programa, por exemplo, algumas dezenas de servidores podem ter que ser retiradas - mas a alteração terá que ser implantada uma a uma. E cada servidor precisará ser reiniciado, novamente em sucessão, e verificado manualmente para garantir que a alteração tenha sido implementada corretamente.
With SRE, however, much of this process could be automated, and individual parts of the network could be continuously monitored so that glitches are caught before they turn into a system-wide issue.
Even greater benefits accrue when SRE is combined with AIOps.
Além disso, os benefícios ainda maiores são acumulados quando o SRE é combinado com o AIOPS. Por exemplo, as operações de TI terão menos incêndios aleatórios para lançar todos os dias, em grande parte porque a automação aborda muitos problemas individuais à medida que surgem, e isso resulta em custos mais baixos de TI. Com esses ganhos, as equipes de TI podem se concentrar em tarefas críticas, como melhorar a colaboração estratégica com o lado comercial para determinar melhor quais aplicativos implementar e por quê. Eles também podem se concentrar no aumento de maneiras mais modernas de trabalho e ferramentas mais viáveis para resiliência a longo prazo. Igualmente importante, a eficácia do SRE e do AIOPS é medida por indicadores de nível de serviço transparentes, baseados em melhorias no nível de serviço de negócios. E como SRE e AIOPS geram ganhos reais, a confiança para embarcar em mais inovadores Transformações digitais Cresce. No entanto, adotá -lo como uma estrutura para as operações de TI do futuro pode ser assustador. O BCG acredita que a adoção pode ser simplificada separando a implementação em três facetas individuais de uma jornada geral: avaliando a resiliência da tecnologia, executando a abordagem SRE e melhorando o sistema com a AIOPS. (Consulte a exposição.)
Clearly, the SRE approach has many more benefits than traditional IT processes. Nevertheless, adopting it as a framework for the IT operations of the future can be daunting. BCG believes that adoption can be simplified by separating implementation into three individual facets of an overall journey: assessing technology resilience, executing the SRE approach, and improving the system with AIOps. (See the exhibit.)
Assessing Technology Resilience
Among the many changes that SRE brings to an organization’s IT operations is the fundamental recognition that SRE is not a siloed IT investment; the business side also plays a significant role in SRE strategy. This is primarily because SRE tools help companies improve business operations through automation, efficiency, and better performance quality while adding value by providing or maintaining digital programs and apps that are essential to the organization’s growth. Consequently, before adopting an SRE approach, business-side teams and IT teams should jointly assess their organization’s technology and make difficult decisions about expectations for its quality of service and performance, the benefits it will provide, and how it will further the company’s strategic goals.
As a result of these discussions, the teams can then draw up a targeted IT operating model with specific goals for each strategic objective. In this assessment, leaders should align on achievable projections for quality of service and other metrics. For instance, a company may strive to decrease the number of downtime incidents by 30%, aim to detect 80% of glitch events in advance, or work to increase traffic due to a new, more streamlined website by 50%. (Trying to improve performance by 100% when a lesser amount would be sufficient can lead to unnecessary investments.) Similar objectives can be established for the cost savings gained by reducing the amount of time it takes to fix problems or to redo work that has already been completed.
Nesta fase, os líderes terão que fazer escolhas mais difíceis que afetarão os recursos, capacidades, governança e cultura da empresa. Por exemplo, eles precisarão identificar a tecnologia necessária, incluindo plataformas, middleware, controles de segurança cibernética, software e aplicativos. Eles também precisarão definir as funções e responsabilidades necessárias para gerenciar essa mudança significativa de TI. A estrutura de gerenciamento revisada pode incluir novas equipes de aprendizado contínuo compostas por membros focados em SRE do Business, Software Development e TI. Além disso, os planos de recrutamento e upcilling precisam ser implementados para adicionar mais engenheiros da SRE, cientistas de dados da AIOPS e especialistas em automação.
An organizational investment and governance blueprint to fund, implement, and monitor the performance of Operações futuras de TI Também deve ser elaborado. As projeções de orçamento e execução devem refletir de perto o escopo das metas de SRE, que podem variar de mudanças incrementais que melhoram a resiliência a revisões estruturais que, por exemplo, modularizam e automatizam um conjunto completo de recursos em uma aplicação de grande escala. A empresa pode começar a fazer melhorias no SRE projetadas para modernizar o cenário de TI, simplificar o desenvolvimento de software e aprimorar o monitoramento e a resposta de incidentes. Em nossa experiência, a abordagem SRE pode oferecer cinco benefícios críticos para sistemas e operações de TI. Esses benefícios devem ser projetados para serem incrementais e melhorando continuamente e devem ser enraizados como objetivos estratégicos centrais na organização.
Executing the SRE Approach
When the newly drawn up IT resilience operating model—which includes a technology roadmap—is in hand, the company can begin making SRE improvements designed to modernize the IT landscape, streamline software development, and enhance incident monitoring and response. In our experience, the SRE approach can deliver five critical benefits for IT systems and operations. These benefits should be designed to be incremental and continuously improving and should ultimately be rooted as core strategic goals in the organization.
Uma redução na complexidade da pilha de tecnologia. Além disso, evitar incidentes espalhados pelo sistema é um elemento -chave do SRE. Known for reducing the blast radius of a component—that is, the negative impact on other parts of the system of a single component breakdown—and for keeping the greatest number of users in operation during a system glitch, this concept can be implemented with more modular architecture designs and circuit breakers. The SRE approach evaluates IT architecture from core systems to front ends with the aim of identifying potential single points of failure and eliminating them—for instance, with the help of redundant designs. In addition, avoiding incident spread across the system is a key element of SRE. Known for reducing the blast radius of a component—that is, the negative impact on other parts of the system of a single component breakdown—and for keeping the greatest number of users in operation during a system glitch, this concept can be implemented with more modular architecture designs and circuit breakers.
Furthermore, SRE targets proactive failure detection through mechanisms that constantly check the service levels of all components involved in a critical business process. Esses mecanismos permitem monitoramento extremamente fino por meio de sondas avançadas colocadas em junções cruciais no processo. Por exemplo, o sistema pode monitorar regularmente a execução de uma tarefa subjacente - a compra de um cliente ou uma transação financeira - e sinaliza quando uma taxa de erro predefinida é atingida antes de quebrar o sistema. Se esse limite de erro for alcançado, a tarefa poderá ser alterada automaticamente para outro banco de dados até que o original seja reparado e pronto para executar em um nível aceitável novamente.
Custos mais baixos da plataforma. SRE pode ajudar a lidar com várias alavancas de custo. O mais óbvio envolve um princípio fundamental da abordagem SRE: reduzir significativamente o impacto das interrupções do serviço, que engolem os recursos da equipe porque as equipes de TI são forçadas em massa a apagar incêndios, em vez de trabalhar em projetos de valor agregado e melhorias de ST, em alta, em um dos mais altos de um tempo de queda de um tempo de queda de um tempo de queda e o tempo de manutenção de um tempo de manutenção de um dos mais altos de um dos mais altos de um tempo de manutenção de um tempo de manutenção de um dos mais altos de um dos mais altos de um tempo de que a reposição e a redução do sistema de manutenção de um tempo em que o tempo de manutenção é de um dos mais altos. Isso, por sua vez, diminui os custos do suporte operacional para monitorar as taxas de latência e erro. E a automação torna a instalação de novos softwares, corrigindo falhas do programa e atualização de aplicativos existentes muito mais econômicos. Sob as condições atuais, alguns departamentos de TI gastam mais de 50% de seu tempo em tarefas manuais que podem ser automatizadas usando um plano SRE. Por exemplo, como o SRE simplifica a arquitetura de TI, o número de licenças necessárias diminui e os custos de manutenção caem porque são necessários menos componentes tecnológicos. Automação, novamente, desempenha um papel fundamental. A aceleração no design, desenvolvimento e velocidade da implementação podem ser vistos no provisionamento mais rápido de componentes em diferentes ambientes tecnológicos, testes de garantia de qualidade mais rápidos, tempo de resposta aprimorado a problemas e maior flexibilidade.
Part of the reason that system downtime is trimmed back lies in a much higher degree of automation of IT controls and application deployment, a hallmark of SRE. That, in turn, lessens the costs of operational support to monitor latency and error rates. And automation makes installing new software, fixing program glitches, and upgrading existing applications much more cost-effective. Under current conditions, some IT departments spend more than 50% of their time on manual tasks that could be automated using an SRE blueprint.
Other, less apparent, cost-saving opportunities are equally advantageous. For instance, as SRE simplifies the IT architecture, the number of licenses required decreases, and maintenance costs fall because fewer technology components are needed.
An Acceleration in Time to Market. SRE addresses several IT critical processes, leading to faster time to market for software delivery. Automation, again, plays a key role. Acceleration in design, development, and the speed of implementation can be seen in the faster provisioning of components in different technology environments, more rapid quality assurance testing, improved response time to problems, and greater flexibility.
Observamos recentemente que uma empresa levou até 40 dias para instalar um novo servidor em sua rede. Obviamente, a equipe de TI envolvida nesse processo gostaria de acelerar a implementação, mas as inúmeras transferências necessárias diminuíram o esforço: a pessoa que preparou o hardware teve que transmiti -lo a alguém para instalar o sistema operacional, e essa pessoa não conseguiu chegar a ele por alguns dias. Então, alguém teve que construir as bibliotecas, e outra pessoa teve que criar os aplicativos antes que a rede pudesse ser configurada. E no final, ainda mais equipes tiveram que realizar testes de segurança e qualidade. Ao todo, dez horas de trabalho levaram mais de um mês para serem concluídas. Por outro lado, usando uma abordagem SRE suportada pela chamada DevOps Ferramentas que aceleram o desenvolvimento de software, um ambiente de aplicativo inteiro para um site, várias estações de trabalho e dispositivos remotos podem ser roteirizados e colocar on -line em menos de 20 minutos.
Dramatic shifts in design and deployment help IT teams become more open to taking risks and making changes that substantially improve a company’s IT operations performance.
Esses tipos de mudanças dramáticas no design e implantação oferecem uma melhoria mais profunda que é igualmente valiosa para uma organização: dado que o tempo para o mercado se torna menos um problema, e a empresa faz ganhos significativos no desempenho de resiliência e confiabilidade, as equipes de TI se tornam mais abertas para assumir riscos e fazer alterações que podem melhorar substancialmente o desempenho de operações de uma empresa. Em outras palavras, a simplicidade e a eficiência das implementações baseadas em SRE fornecem um nível elevado de confiança de que dar outras grandes etapas, como mover uma rede para a nuvem ou projetar um novo aplicativo para um novo mercado, será bem-sucedido e não indevidamente onerosa. eficiência e resiliência. Como o trabalho manual que envolve implantação, solução de problemas e manutenção é reduzido e os componentes e ambientes de operações de TI são padronizados, as equipes de tecnologia podem se concentrar em novos projetos ou melhorias com retornos reais em potencial. Isso significa que, devido à aceleração e eficiência do desenvolvimento de hardware, rede e software usando a abordagem SRE, as equipes de TI têm maior probabilidade de concluir todas as tarefas de design e manutenção logo desde o início como parte do processo, em vez de adiar alguns problemas por uma questão de tempo. Tendo que retornar a uma longa lista de itens restantes no final de um projeto, ou não abordar completamente as preocupações do usuário, abre caminho para introduzir mais bugs, erros e atrasos. tempo de atividade ou tempo de resposta, isso geralmente deixa de fornecer a imagem completa. Por exemplo, um site de comércio eletrônico pode parecer estar em execução sem problemas perceptíveis 95% do tempo. Mas um olhar mais atento revela que os clientes geralmente apresentam problemas de desempenho em momentos críticos, como ao tentar pagar por um produto com um cartão de crédito. Otimizar o desempenho nessas interações fundamentais do cliente pode ter um impacto mais saliente no lado comercial da empresa do que alcançar 100% de tempo de atividade. Trabalhando ao contrário das expectativas de desempenho relacionadas a processos de negócios críticos específicos, a SRE delineia os objetivos do nível de serviço. Esses objetivos e as métricas usadas para avaliar se estão sendo atingidas, tornam -se o roteiro que todas as partes da organização podem compartilhar para avaliar a resiliência da tecnologia. Mas como resultado do papel estranho da automação nas operações de TI baseadas em SRE, adicionando
Enhanced Capacity of the IT Team. SRE improves the productivity of IT staffers considerably—a testament to the benefits of automation and the overall gains in efficiency and resilience. As manual work involving deployment, troubleshooting, and maintenance is reduced and IT operations components and environments are standardized, technology teams can focus on new projects or improvements with real potential returns.
Part of the explanation for why SRE principles can expand productivity is that they rely on so-called error budget discipline to avoid excess technical debt. This means that because of the acceleration and efficiencies in hardware, network, and software development using the SRE approach, IT teams are more likely to complete all the design and maintenance tasks right from the beginning as part of the process, rather than postpone some issues for the sake of time. Having to return to a long list of remaining items at the end of a project, or failing to completely address user concerns, paves the way for introducing more bugs, mistakes, and delays.
Alignment Between Business and IT on Quality-of-Service and Performance Issues. Traditionally, IT has viewed applications and infrastructure performance from a technical angle, using quantitative metrics, such as uptime or response time, that often fail to provide the full picture. For instance, an e-commerce site may appear to be running without noticeable problems 95% of the time. But a closer look reveals that customers often experience performance issues at critical moments, such as when trying to pay for a product with a credit card. Optimizing performance at these pivotal customer interactions could have more salient impact on the business side of the company than achieving 100% uptime.
To address this disconnect between the priorities of IT and business operations, SRE approaches the issue of quality of service from an end user perspective. Working backwards from the performance expectations related to specific critical business processes, SRE delineates required service level objectives. These objectives, and the metrics that are used to gauge whether they are being met, become the roadmap that all parts of the organization can share to assess technology resilience.
Improving the System with AIOps
Adopting SRE techniques delivers substantial improvements on its own. But as a result of the outsized role of automation in SRE-based IT operations, adding Recursos de AI e aprendizado de máquina - Na essência, combinando inteligência com automação - fornece retornos ainda melhores. A AIOPS apresenta o uso estendido de dados e análises avançadas em controle e gerenciamento de rede e aplicativos, armando equipes de TI com ferramentas para aumentar a excelência operacional. Em nossa experiência, as empresas que implementam a AIOPs podem reduzir seus custos de suporte de TI em 20% a 30%, aumentando a satisfação do usuário em toda a organização e liberando o tempo para tarefas mais gratificantes. Por exemplo, ele pode ser implantado para alavancar análises avançadas para aprimorar o gerenciamento de ingressos de suporte a incidentes. Nesse sentido, os programas da AIOPS podem analisar os tickets de suporte para padrões que indicariam os problemas dos sistemas emergentes antes que eles se tornem um problema. Os programas podem então rotear os tickets de suporte rapidamente para as equipes apropriadas, para que os problemas nascentes e suas causas radiculares possam ser abordados. E para muitos problemas recorrentes, os programas de IA poderiam lidar com o reparo sem nenhuma intervenção humana. Por exemplo, um sistema de aprendizado de máquina instalado em uma empresa de serviços financeiros específica lê através da infraestrutura de tecnologia e registros de aplicativos e métricas provenientes de programas de monitoramento de TI. O sistema tenta identificar e filtrar alertas falsos positivos e reconhecer e avaliar a importância dos problemas reais. Em seguida, atribui automaticamente esses problemas aos especialistas certos, que podem acelerar a solução de problemas e impedir que o incidente afete as operações. Desde que esse sistema foi instalado, a detecção de incidentes na empresa aumentou 85% e o tempo de inatividade do aplicativo caiu 40%. Mas muitos desafios ainda permanecem para aumentar o impacto e o valor dessas atividades. Como resultado, essas decisões são frequentemente impulsionadas pelos preconceitos e restrições da equipe de TI e não são priorizados para criar valor nas principais áreas da organização ou para atender às necessidades urgentes do ambiente de negócios e de suas estratégias primárias. Por outro lado, as equipes de cientistas de dados que são encarregadas de supervisionar as implementações da AIOPS - e espera -se avaliar os resultados e gerar insights para melhorias - calcule as habilidades de gerenciamento de mudanças necessárias para a inovação contínua nas operações de TI. Nesse processo, os exercícios de prova de valor devem ser usados para estabelecer um roteiro que priorize os aplicativos. O impacto no desempenho das operações de TI em toda a organização deve ser previsto e os KPIs devem ser desenvolvidos como métricas. O design e o desenvolvimento do AIOPS devem ocorrer relativamente rapidamente, a fim de produzir rapidamente resultados, o que demonstrará o valor dessa abordagem e, em seguida, desenvolverá essa experiência positiva para implantações futuras. Amplifique o valor das operações de TI e melhore os resultados. Obviamente, a implantação de uma operações de TI do futuro deve ser um esforço contínuo, com alterações e melhorias frequentes. Mas cada etapa aproximará a empresa para reduzir interrupções recorrentes, falhas e incidentes maliciosos, como ataques cibernéticos, enquanto escalam operações de TI, para que eles priorizem as estratégias críticas da empresa de maneira rápida e menos dispensada do que antes. entregar é notável. Com o tempo, essa abordagem pode obrigar o valor real de equipes de TI que são frequentemente vistas como custos sem retornos.
AIOps can be used in many ways in IT operations. For example, it can be deployed to leverage advanced analytics to enhance the management of problem incident support tickets. In this regard, AIOps programs might analyze support tickets for patterns that would indicate emerging systems’ issues before they become a problem. The programs could then route support tickets quickly to the appropriate teams so the nascent problems and their root causes can be addressed. And for many recurring problems, the AI programs could handle the repair without any human intervention.
Using machine learning, AIOps can even jump on an issue before it becomes a major headache—often before a support ticket is written. For example, a machine learning system installed at one particular financial services firm reads through technology infrastructure and applications logs and metrics coming from IT monitoring programs. The system attempts to identify and filter out false-positive alerts and recognize and weigh the importance of the real problems. It then automatically assigns those problems to the right specialists, who may be able to accelerate troubleshooting and prevent the incident from affecting operations. Since this system was installed, incident detection at the firm is up by 85% and application downtime has dropped by 40%.
BCG research has shown that advanced companies that have hired teams with strong data-related skills—including data scientists and data and software engineers—as well as expertise in implementing advanced analytics solutions using AIOps have had some operational success working with IT operations. But many challenges still remain to increase the impact and value of these activities.
For one thing, data scientists are often the ones who choose the specific applications for AIOps models and algorithms. As a result, these decisions are frequently driven by IT team biases and constraints and not prioritized to create value in key areas of the organization or to address the urgent needs of the business environment and its primary strategies. For another, the data scientist teams that are charged with overseeing the AIOps implementations—and are expected to assess results and generate insight for improvements—lack the change management skills required for continuous innovation in IT operations.
To overcome these shortcomings, the best approach is to carefully select a series of AIOps deployments that are urgent but doable in a short period of time. In this process, proof-of-value exercises should be used to establish a roadmap that prioritizes applications. The impact on the performance of IT operations across the organization should be forecast, and KPIs should be developed as metrics. AIOps design and development should occur relatively quickly in order to rapidly produce results, which will demonstrate the value of this approach, and then build on that positive experience for future deployments.
A Raft of Benefits
BCG’s three-phase framework for embracing the SRE approach and enhancing the system with AIOps can help a company improve business process resilience through quality-of-service and performance gains as well as amplify the value of IT operations and improve the bottom line. Of course, the deployment of an IT operations of the future should be an ongoing effort, with frequent changes and improvements. But each step will bring the company closer to reducing recurrent outages, breakdowns, and malicious incidents, such as cyber attacks, while scaling IT operations so that they prioritize critical company strategies quickly and less expensively than before.
Considering the significance of digitization, AI, and other advanced technologies on competitiveness these days, the fact that choosing the SRE path raises expectations for what IT operations can deliver is notable. In time, this approach can compel real value from IT teams that are too often viewed as costs without returns.