Revisão Pós-Incidente (RPI) preliminar

Este documento é uma tradução da seguinte versão em inglês: https://www.crowdstrike.com/falcon-content-update-remediation-and-guidance-hub/. A versão traduzida é fornecida apenas para fins de referência e praticidade. Em caso de qualquer conflito ou ambiguidade, a versão em inglês sempre prevalecerá e terá precedência.

—

Atualizado em 26-07-2024 2122 UTC

Revisão Pós-Incidente (RPI) preliminar

Atualização da configuração de conteúdo com impacto no Sensor Falcon e no sistema operacional Windows (BSOD)

Resumo Executivo PDF

Esta é a Revisão Pós-Incidente (RPI) preliminar da CrowdStrike. Detalharemos nossa investigação completa na próxima Análise de Causa Raiz, que será divulgada publicamente. Nesta RPI, usamos uma terminologia geral para descrever a plataforma Falcon, facilitando assim a leitura. A terminologia em outros documentos pode ser mais específica e técnica.

O que aconteceu?

Na sexta-feira, 19 de julho de 2024, às 04:09 UTC, como parte das operações habituais, a CrowdStrike liberou uma atualização da configuração de conteúdo para o sensor Windows a fim de coletar telemetria de possíveis novas técnicas de ameaça.

Essas atualizações são procedimentos comuns dos mecanismos de proteção dinâmicos da plataforma Falcon. A atualização problemática da configuração do Conteúdo de Resposta Rápida resultou em uma falha do sistema Windows.

Entre os sistemas no escopo estavam os hosts Windows executando a versão 7.11 e superior do sensor que estavam online entre sexta-feira, 19 de julho de 2024, às 04:09 UTC e sexta-feira, 19 de julho de 2024, às 05:27 UTC e que receberam a atualização. Os hosts Mac e Linux não foram afetados.

O problema na atualização de conteúdo foi revertido na sexta-feira, 19 de julho de 2024, às 05:27 UTC. Os sistemas que ficaram online após esse horário ou que não se conectaram durante o referido período não foram afetados.

O que deu errado e por que isso ocorreu?

A CrowdStrike faz as atualizações da configuração de conteúdo de segurança de seus sensores de duas formas: Conteúdo dos Sensores, que é enviado diretamente com nosso sensor; e Conteúdo de Resposta Rápida, que é criado para responder ao dinâmico cenário de ameaça à velocidade operacional.

O problema na sexta-feira estava relacionado a uma atualização do Conteúdo de Resposta Rápida com um erro não detectado.

Conteúdo dos Sensores

O Conteúdo do Sensor oferece uma ampla gama de recursos para ajudar na resposta a adversários. Ele é sempre parte de uma versão do sensor e não é atualizado dinamicamente na nuvem. O Conteúdo do Sensor inclui modelos de IA e machine learning no sensor e contém código escrito expressamente para fornecer capacidades reutilizáveis e de longo prazo para os engenheiros de detecção de ameaças da CrowdStrike.

Essas capacidades incluem Tipos de Modelo, que têm campos predefinidos para os engenheiros de detecção de ameaças usarem no Conteúdo de Resposta Rápida. Os Tipos de Modelo são expressos em código. Todo o Conteúdo do Sensor, assim como os Tipos de Modelo, passam por um rigoroso processo de controle de qualidade, que abrange etapas de testes automatizados, testes manuais, validação e implementação.

O processo de versionamento do sensor começa com testes automatizados, tanto antes quanto depois da incorporação à base do nosso código. Esse processo envolve testes de unidade, de integração, de desempenho e de estresse, que culminam em um processo de implementação gradual do sensor que começa com a distribuição interna (dogfooding) na CrowdStrike, seguido pelos usuários mais antigos. Depois disso, é disponibilizado para os clientes em geral. Os clientes, por sua vez, podem selecionar quais máquinas devem instalar a versão mais recente do sensor (“N”), ou uma versão anterior (“N-1”), ou uma versão anterior àquela (“N-2”) por meio das Políticas de Atualização do Sensor.

O evento de sexta-feira, 19 de julho de 2024, não foi desencadeado pelo Conteúdo do Sensor, que é entregue apenas com a versão de um sensor Falcon atualizado. Os clientes têm controle total sobre a implementação do sensor, que inclui o Conteúdo de Sensor e Tipos de Modelo.

Conteúdo de Resposta Rápida

O Conteúdo de Resposta Rápida é usado para executar diversas operações de correspondência de padrão comportamental no sensor usando um mecanismo altamente otimizado. Esse conteúdo é uma representação de campos e valores, com filtros associados, e é armazenado em um arquivo binário proprietário que contém dados de configuração. Não é um código nem um driver kernel.

O Conteúdo de Resposta Rápida é fornecido como “Instâncias de Modelo”, que são instâncias de um determinado Tipo de Modelo. Cada Instância de Modelo mapeia comportamentos específicos para o sensor observar, detectar ou evitar. As Instâncias de Modelo têm um conjunto de campos que podem ser configurados para corresponder ao comportamento desejado.

Em outras palavras, os Tipos de Modelo representam uma capacidade do sensor que permite nova telemetria e detecção, e seu comportamento de tempo de execução é configurado dinamicamente pela Instância de Modelo (ou seja, o Conteúdo de Resposta Rápida).

O Conteúdo de Resposta Rápida oferece visibilidade e detecção no sensor sem exigir alterações no código do sensor. Os engenheiros de detecção de ameaças usam essa capacidade para coletar telemetria, identificar indicadores de comportamento de adversários e realizar detecção e prevenção. O Conteúdo de Resposta Rápida é uma heurística comportamental, separado e distinto das capacidades de prevenção e detecção por IA no sensor da CrowdStrike.

Teste e Implementação do Conteúdo de Resposta Rápida

O Conteúdo de Resposta Rápida é entregue como atualizações de configuração de conteúdo para o sensor Falcon. Existem três sistemas principais: o Sistema de Configuração de Conteúdo, o Interpretador de Conteúdo e o Mecanismo de Detecção do Sensor.

O Sistema de Configuração de Conteúdo faz parte da plataforma Falcon na nuvem, enquanto o Interpretador de Conteúdo e o Mecanismo de Detecção do Sensor são componentes do sensor Falcon. O Sistema de Configuração de Conteúdo é usado para criar Instâncias de Modelo, que são validadas e implementadas no sensor por meio de um mecanismo chamado Arquivos de Canal. O sensor armazena e atualiza seus dados de configuração de conteúdo por meio dos Arquivos de Canal, que são salvos em disco no host.

O Interpretador de Conteúdo no sensor lê o Arquivo de Canal e interpreta o Conteúdo de Resposta Rápida, permitindo que o Mecanismo de Detecção do Sensor observe, detecte ou evite atividades maliciosas, dependendo da configuração de política do cliente. O Interpretador de Conteúdo foi projetado para lidar normalmente com exceções de conteúdo possivelmente problemático.

Vários aspectos dos Tipos de Modelo recém-lançados são testados, como utilização de recursos, impacto no desempenho do sistema e volume de eventos. Para cada Tipo de Modelo, uma Instância de Modelo específica é usada para realizar testes de estresse do Tipo de Modelo, comparando com qualquer valor possível dos campos de dados associados para identificar interações adversas do sistema.

As Instâncias de Modelo são criadas e configuradas por meio do uso do Sistema de configuração de conteúdo, que inclui o validador de conteúdo que realiza verificações de validação no conteúdo antes de sua publicação.

Linha do tempo dos eventos: teste e implementação do Tipo de Modelo InterProcessCommunication (IPC)
Lançamento do Conteúdo de Sensor: em 28 de fevereiro de 2024, o sensor 7.11 foi disponibilizado para os clientes em geral, introduzindo um novo Tipo de Modelo IPC para detectar técnicas de ataque inéditas que abusam dos Pipes nomeados. A versão seguiu todos os procedimentos de teste de Conteúdo de Sensor descritos acima na seção Conteúdo dos Sensores.

Teste de estresse do Tipo de Modelo: em 5 de março de 2024, um teste de estresse do Tipo de Modelo IPC foi executado no ambiente de teste, que consiste em diversos sistemas operacionais e cargas de trabalho. O Tipo de Modelo IPC passou no teste de estresse e foi validado para uso.

Lançamento da Instância de Modelo pelo Arquivo de Canal 291: em 5 de março de 2024, após o teste de estresse bem-sucedido, uma Instância de Modelo IPC foi liberada para produção como parte de uma atualização da configuração de conteúdo. Posteriormente, três outras Instâncias de Modelo IPC foram implementadas entre 8 de abril de 2024 e 24 de abril de 2024. Essas Instâncias de Modelo tiveram o desempenho esperado na produção.

O que aconteceu em 19 de julho de 2024?

Em 19 de julho de 2024, duas Instâncias de Modelo IPC adicionais foram implementadas. Devido a um bug no Validador de Conteúdo, uma das duas Instâncias de Modelo passou na validação, apesar de conter dados de conteúdo problemático.

Com base nos testes realizados antes da implementação inicial do Tipo de Modelo (em 5 de março de 2024), em confiança nas verificações realizadas no validador de conteúdo e nas implementações bem-sucedidas anteriores da Instância de Modelo IPC, essas instâncias foram implementadas na produção.

Quando o conteúdo problemático no Arquivo de Canal 291 foi recebido pelo sensor e carregado no Interpretador de Conteúdo, causou uma leitura de memória fora dos limites, acionando acionou uma exceção. Não foi possível tratar essa exceção inesperada normalmente, levando a uma falha no sistema operacional Windows (BSOD).

Como evitaremos que isso aconteça novamente?

Resiliência e Testes de Software

• Aprimoramento dos testes de Conteúdo de Resposta Rápida usando tipos de teste como:

• Testes locais por desenvolvedores
• Testes de atualização e reversão de conteúdo
• Testes de estresse, fuzzing e injeção de falhas
• Testes de estabilidade
• Testes de interface de conteúdo

• Inclusão de verificações de validação adicionais no Validador de Conteúdo para o Conteúdo de Resposta Rápida. Uma nova verificação está em curso para evitar que esse tipo de conteúdo problemático seja implementado no futuro.

• Melhoria no tratamento atual de erros no Interpretador de Conteúdo.

Implementação do Conteúdo de Resposta Rápida

• Aplicação de uma estratégia de implementação escalonada para o Conteúdo de Resposta Rápida, na qual as atualizações sejam implementadas gradualmente em partes maiores da base do sensor, começando com uma implementação parcial.

• Melhoria no monitoramento do desempenho do sensor e do sistema, coletando feedback durante a implementação do Conteúdo de Resposta Rápida para orientar uma implementação gradual.

• Fornecimento de maior controle sobre a disponibilização das atualizações do Conteúdo de Resposta Rápida aos clientes, permitindo a seleção granular de quando e onde essas atualizações serão implementadas.

• Fornecimento de informações sobre a atualização de conteúdo por meio de anúncios de lançamento, que os clientes podem optar por receber.

Atualizado em 26-07-2024 2122 UTC
Validações por Terceiros

• Realização de várias análises independentes de códigos de segurança por meio de terceiros.
• Realização de análises independentes do processo de qualidade de ponta a ponta, desde o desenvolvimento até a implementação.

Além desta Revisão Pós-Incidente preliminar, a CrowdStrike está comprometida em divulgar a Análise de Causa Raiz completa assim que a investigação for concluída.