Home Notícias O fracasso da CrowdStrike e o próximo colapso global de TI já...

O fracasso da CrowdStrike e o próximo colapso global de TI já estão em andamento

19
0
CEO da CrowdStrike sobre interrupção global: o objetivo agora é garantir que todos os clientes estejam funcionando novamente

Quando as telas do computador ficou azul em todo o mundo na sexta, voos foram canceladosos check-ins em hotéis tornaram-se impossíveis, e as entregas de cargas foram paralisadas. Os negócios recorreram a papel e caneta. E as suspeitas iniciais pousaram em algum tipo de ataque ciberterrorista. A realidade, no entanto, era muito mais mundana: uma atualização de software malfeita da empresa de segurança cibernética CrowdStrike.

“Nesse caso, foi uma atualização de conteúdo”, disse Nick Hyatt, diretor de inteligência de ameaças da empresa de segurança Blackpoint Cyber.

E como a CrowdStrike tem uma base tão ampla de clientes, foi a atualização de conteúdo sentida no mundo todo.

“Um erro teve resultados catastróficos. Este é um ótimo exemplo de quão intimamente ligada à TI nossa sociedade moderna está — de cafeterias a hospitais e aeroportos, um erro como esse tem ramificações enormes”, disse Hyatt.

Neste caso, a atualização de conteúdo foi vinculada ao software de monitoramento CrowdStrike Falcon. O Falcon, diz Hyatt, tem conexões profundas para monitorar malware e outros comportamentos maliciosos em endpoints, neste caso, laptops, desktops e servidores. O Falcon se atualiza automaticamente para contabilizar novas ameaças.

“O código com bugs foi lançado por meio do recurso de atualização automática e, bem, aqui estamos”, disse Hyatt. A capacidade de atualização automática é padrão em muitos aplicativos de software e não é exclusiva do CrowdStrike. “É que, devido ao que o CrowdStrike faz, a precipitação aqui é catastrófica”, acrescentou Hyatt.

Os erros de tela azul da morte nas telas de computador são vistos devido à interrupção global das comunicações causada pela CrowdStrike, que fornece serviços de segurança cibernética para a empresa de tecnologia norte-americana Microsoft, em 19 de julho de 2024 em Ancara, Turquia.

Harun Ozalp | Anatólia | Imagens Getty

Embora A CrowdStrike identificou rapidamente o problemae muitos sistemas estavam funcionando novamente em poucas horas, a cascata global de danos não é facilmente revertida para organizações com sistemas complexos.

“Achamos que de três a cinco dias antes que as coisas sejam resolvidas”, disse Eric O’Neill, ex-agente de contraterrorismo e contrainteligência do FBI e especialista em segurança cibernética. “Isso é um monte de tempo de inatividade para as organizações.”

Não ajudou, disse O’Neill, o fato de a queda de energia ter ocorrido em uma sexta-feira de verão, com muitos escritórios vazios e com escassez de recursos de TI para ajudar a resolver o problema.

As atualizações de software devem ser implementadas de forma incremental

Uma lição da interrupção global de TI, disse O’Neill, é que a atualização do CrowdStrike deveria ter sido implementado de forma incremental.

“O que a Crowdstrike estava fazendo era lançar suas atualizações para todos de uma vez. Essa não é a melhor ideia. Envie para um grupo e teste. Há níveis de controle de qualidade pelos quais ele deve passar”, disse O’Neill.

“Ele deveria ter sido testado em sandboxes, em muitos ambientes antes de ser lançado”, disse Peter Avery, vice-presidente de segurança e conformidade da Visual Edge IT.

Ele espera que mais salvaguardas sejam necessárias para evitar incidentes futuros que repitam esse tipo de falha.

“Você precisa dos controles e equilíbrios certos nas empresas. Pode ter sido uma única pessoa que decidiu forçar essa atualização, ou alguém escolheu o arquivo errado para executar”, disse Avery.

A indústria de TI chama isso de falha de ponto único — um erro em uma parte de um sistema que cria um desastre técnico em setores, funções e redes de comunicação interconectadas; um enorme efeito dominó.

Apelo para criar redundância nos sistemas de TI

Precisamos tornar esses sistemas 'muito mais resilientes', diz CEO da Cohesity sobre interrupções globais de tecnologia

O evento de sexta-feira pode fazer com que empresas e indivíduos aumentem seu nível de preparação cibernética.

“O quadro geral é o quão frágil o mundo é; não é apenas um problema cibernético ou técnico. Há uma tonelada de fenômenos diferentes que podem causar uma interrupção, como erupções solares que podem destruir nossas comunicações e eletrônicos”, disse Avery.

No final das contas, o colapso de sexta-feira não foi uma acusação à Crowdstrike ou à Microsoft, mas sim à forma como as empresas veem a segurança cibernética, disse Javad Abed, professor assistente de sistemas de informação na Johns Hopkins Carey Business School. “Os empresários precisam parar de ver os serviços de segurança cibernética como um mero custo e, em vez disso, como um investimento essencial no futuro de suas empresas”, disse Abed.

As empresas devem fazer isso criando redundância em seus sistemas.

“Um único ponto de falha não deveria ser capaz de parar um negócio, e foi isso que aconteceu”, disse Abed. “Você não pode confiar em apenas uma ferramenta de segurança cibernética, segurança cibernética 101”, disse Abed.

Embora criar redundância em sistemas empresariais seja caro, o que aconteceu na sexta-feira é mais caro.

“Espero que isso sirva de alerta e que cause algumas mudanças na mentalidade dos empresários e organizações para que revisem suas estratégias de segurança cibernética”, disse Abed.

O que fazer com o código ‘nível do kernel’

Em um nível macro, é justo atribuir alguma culpa sistêmica dentro de um mundo de TI empresarial que frequentemente vê a segurança cibernética, a segurança de dados e a cadeia de suprimentos de tecnologia como “coisas boas de se ter” em vez de essenciais, e uma falta geral de liderança em segurança cibernética dentro das organizações, disse Nicholas Reese, ex-funcionário do Departamento de Segurança Interna e instrutor do SPS Center for Global Affairs da Universidade de Nova York.

Em um nível micro, Reese disse que o código que causou essa interrupção foi o código de nível kernel, impactando todos os aspectos de comunicação de hardware e software do computador. “O código de nível kernel deve obter o mais alto nível de escrutínio”, disse Reese, com aprovação e implementação precisando ser processos totalmente separados com responsabilidade.

Esse é um problema que continuará em todo o ecossistema, inundado de produtos de terceiros, todos com vulnerabilidades.

“Como olhamos para o ecossistema de fornecedores terceirizados e vemos onde estará a próxima vulnerabilidade? É quase impossível, mas temos que tentar”, disse Reese. “Não é um talvez, mas uma certeza até lidarmos com o número de vulnerabilidades potenciais. Precisamos nos concentrar em backup e redundância e investir nisso, mas as empresas dizem que não podem pagar por coisas que podem nunca acontecer. É um caso difícil de defender”, disse ele.

Source