| |
| |
Tecnologia de Pesquisa |
|
| |
As técnicas necessárias para achar documentos textuais (word, excel, páginas na Internet) são totalmente distintas daquelas para encontrar documentos a partir de imagens capturadas por scanner, máquinas fotográficas, etc.
O insucesso no uso de OCRs é devido à grande taxa de erros em documentos da vida real, e simplesmente pesquisar pelas palavras não funciona. Quem já tentou, sabe. A incerteza do resultado é grande. Além disso, imagine 1 milhão de páginas, cada uma com 700 palavras. O universo de pesquisa seria um banco com 700 milhões de entradas. Qual o tamanho de um banco de dados tradicional, máquina necessária e tempo de pesquisa ? E o lixo, por exemplo, os "l" trocados por "1"?
A DocPro partiu por uma linha diferente, que vai desde a técnica, forma, programas e qualidade na captura da imagem, até algoritmos super sofisticados, que garantem um nível de acerto sem similares. São baseados na observação e experiência de muitos milhões de documentos, a forma humana de ler e inteligência artificial.
Repare no exemplo abaixo:
"
Não ipomtra em qaul odrem as lrteas de uma plravaa etãso, a úncia csioa iprotmatne é que a priemria e útmlia lertas etejasm no lgaur crteo. O rseto pdoe ser uma ttaol bçguana que vcoê pdoe anida ler sem grdaes pobrlmeas. Itso é poqrue nós não lmeos cdaa lrtea isladoa, mas a plravaa cmoo um tdoo. Vdaerde!"
Ou seja: usar um ou vários OCRs, guardar as palavras e depois pesquisar, não vai trazer um bom resultado. É necessário, dentro do possível, se aproximar da forma humana de ler, levar em conta a captura da melhor imagem possível, a impossibilidade de reconhecer perfeitamente todas as palavras nos documentos reais do dia a dia e a inviabilidade de tempo e custo para corrigir manualmente o resultado. Com freqüência, implementamos novas técnicas que aumentam a taxa de acerto. |
|
|
| |
|
|
|
|