Wednesday, February 16, 2011

Analisando material pornográfico com o FTK - EID

Em computação forense, algumas vezes nos deparamos com casos que envolvem conteúdo pornográfico: seja uma simples ação para garantir que a política de segurança da companhia está sendo respeitada pelos usuários ou em uma investigação mais complexa. Brincadeiras a parte, passar o dia vasculhando arquivos pornográficos pode ser desagradável ou até mesmo costrangedor...




Para resolver esta questão, o Forensic Toolkit (FTK), fornecido pela AccessData, traz um recurso muito interessante chamado EID: Explicit Image Detection. Basicamente, este é um recurso que localiza, identifica e classifica todos os arquivos de imagens (GIF, JPG, PNG, etc..) das evidências do caso em um ranking que vai de 0 (não pornográfica) até 100 (pornografia explicita). Para detecção deste conteúdo, o FTK utiliza três profiles:




  • X-DFT: profile padrão, sempre selecionado, gera um ranking bem balanceado entre velocidade e acerto.
  • X-FST: profile para varredura mais rápida, é utilizado também para gerar ranking de pastas de arquivos, baseado no número de arquivos desta pasta que alcancem um score alto no ranking de pornografia. Foi desenvolvido com uma tecnologia diferente do X-DFT, para permitir uma resposta rápida em um grande volume de imagens, e devido a agilidade do algorítimo, pode mesmo ser utilizado em aplicações que exigem análise em tempo real das imagens.
  • X-ZFN: profile para varredura que gera o menor número de falsos negativos, recomenda-se utilizar este profile para uma segunda análise (Additional Analysis), apenas para as pastas de arquivos identificadas como pornográficas pelo X-DFT.

Gerei uma biblioteca com algumas imagens "inicentes" e outras imagens pornográficas para analisar o comportamento da ferramenta.  Para facilitar a visualização dos resultados, todas as imagens eróticas/pornográficas foram armazenadas em um diretório "have fund pics".

Neste diretório é possível perceber que o X-FST não acusou apenas uma das oito imagens potencialmente suspeitas, o que deixou o diretório com um ranking bem elevado:



Dentro deste diretório, criei outro diretório, desta vez com quatorze itens, conforme print abaixo. Novamente, apenas uma pequena parcela (três imagens) foram "ignoradas" pela ferramenta, mantendo um nível de acerto muito satisfatório:


O teste que eu fiz contou também com outras imagens, em outros diretórios, com conteúdo "inocente". Os resultados foram os seguintes:

  • De 160 imagens não pornográficas, o sistema acusou 21 falsos positivos
  • De 23 imagens pornográficas, o sistema acusou 4 falsos negativos (sendo que duas são imagens em b&w)

Resultado final: de 183 imagens utilizadas para o teste, o sistema me indicou 40 (19 realmente pornográficas e 21 falsos positivos) imagens para serem analisadas, ou seja, aproximadamente 22% da amostra!

[Update] Veja uma demonstração deste recurso no vídeo abaixo:



Paul Henry escreveu um texto muito bom sobre o EID no blog da SANS, analisando um conjunto de 60.000 (!!!) imagens. Vale a pena a leitura!

No comments:

Post a Comment