Friday, August 26, 2011

[DEMO] AccessData OCR - Optical Character Recognition

OCR, sigla em inglês para Optical Character Recognition, é uma tecnologia que permite reconhecer caracteres de texto em imagens, transformando-os em texto editável. Esta tecnologia é muito popular hoje em dia, pois a grande maioria dos scanners acompanha pelo menos um programa de OCR, que podem ser usados para obter texto de páginas impressas, substituindo a digitação manual.

As fontes True Type utilizadas pelos editores de texto são gravadas em modo vetorial, uma descrição matemática das curvas e linhas que compõem o caracter. Este recurso permite que o tamanho da fonte seja alterado livremente, sem perda de qualidade. Um programa de OCR atua basicamente comparando os caracteres digitalizados com estas fontes gráficas. 


Inicialmente, o programa examina a página para mapear os espaços em branco, reconhecendo títulos, colunas, parágrafos e imagens, o que permite manter a ordem correta do texto. Programas de OCR mais avançados, são capazes de manter toda a formatação da página. O segundo passo, consiste em comparar cada caracter com modelos de fontes suportadas pelo OCR. Havendo uma certa porcentagem de coincidência, o caracter é reconhecido. Como este primeiro processo demanda uma semelhança muito grande entre as fontes e os caracteres digitalizados, muitos acabam não sendo reconhecidos. Mas ainda não é o fim do mundo =)

Nos caracteres não reconhecidos, é aplicado um segundo processo bem mais minucioso, que consiste em analisar geometricamente cada caracter, calculando a altura, largura, e combinações de retas, curvas e áreas em branco. Novamente, é usada a lei da probabilidade: um caracter com uma curva em forma de meia lua que continua na forma de uma reta, por exemplo, tem uma grande chance de ser um "d" minúsculo por exemplo. Este segundo processo é muito mais demorado, pois para cada letra é preciso gerar todo um novo conjunto de caracteres gráficos. Se mesmo com o exame minucioso, não for possível reconhecer o caracter, o programa poderá utilizar um corretor ortográfico para corrigir erros bobos, ou preecher espaços vazios. Com a ajuda do corretor, "Ca1e-se" seria substituído por "Cale-se" e "Paralele#ípe~o" seria alterado para "Paralelepípedo". Uma última alternativa para reconhecer caracteres ilegíveis, pode ser mostrar individualmente o bitmap de cada caracter não reconhecido e, pedir ao usuário que o substitua pela letra correspondente, ou então, simplesmente, usar um símbolo como ~,% ou # no lugar do caractere para que o usuário possa corrigir o erro manualmente depois.

Em computação forense, algumas vezes nos deparamos com casos que a evidência principal está embutida em uma figura, como por exemplo um print screen de uma tela suspeita, ou várias paginas de um arquivo digitalizadas. Estes conteúdos dos arquivos de imagens não são responsivos a uma busca por palavra chave.

Print Screen, você está fazendo isso errado...

Para resolver esta questão, a AccessData implementou o recurso OCR que reconhece caracteres dentro de um arquivo de imagens e fotos no HD suspeito. 

Seu uso é bastante simples, e uma vez processado e indexado, o FTK utiliza o Index Search para que as palavras sejam localizadas nas figuras. Para processar as evidências com o OCR, o perito deve, ao adicionar a evidência, clicar em “Refinement Options...”:


Depois de abrir o “Refinement Options...” o perito deve marcar a opção “Optical Character Recognition” e depois clicar em "OCR Options...".



Como se pode ver, na tela OCR Options o perito pode escolher os tipos de arquivos que serão analisados pela engine do OCR. O engine é o algorítimo que será utilizado para processar os arquivos. Dependendo da sua licença, estará disponível o Tesseract (http://4n6.cc/QdPt6) ou GlyphReader (http://4n6.cc/3dT2W).


Depois de processar a evidência com a opção OCR marcada, o perito deve ir até o Index Search para fazer sua busca.


A pesquisa é feita normalmente sem distinção entre busca em arquivo de texto e arquivo de imagem. É simples, basta processar o caso/evidência com OCR e depois realizar as buscas desejadas. Caso a palavra chave seja encontrada em um arquivo gráfico, este arquivo será responsivo ao critério de busca!

Veja uma demonstração do recurso no vídeo a seguir:






No comments:

Post a Comment