TL;DR Neste artigo, vamos abordar as principais diferenças entre um OCR e inteligência artificial, mostrando como esses modelos executam o processamento de documentos. Apontaremos as desvantagens do OCR frente à inteligência artificial e apresentaremos uma nova solução que permite maior precisão em documentos tão desafiadores e complexos, como as matrículas de imóvel.
Com a pandemia e a aceleração da transformação digital nas empresas, a automação em processos tradicionais tornou-se fundamental para dar mais celeridade aos fluxos dentro das empresas. Um desses processos é a leitura e análise de documentos, que é executada por times de backoffice, compliance e jurídico diariamente.
Assim, muitos setores, como serviços financeiros, real estate, construção civil e agronegócio dependem da extração de dados de documentos com alta qualidade para otimizar os fluxos de trabalho de negócios, diminuindo custo das operações e o tempo gasto em cada procedimento.
O que é um OCR?
Optical Character Recognition (OCR) é uma tecnologia criada para reconhecer caracteres a partir de um arquivo de imagem ou mapa de bits, sejam eles escaneados, escritos à mão, datilografados ou impressos. Dessa forma, com a ajuda de um OCR, é possível obter um conteúdo editável a partir de uma imagem em texto.
Essa tecnologia surgiu na década de 1920 e, desde então, ela evoluiu ajudando na extração de dados de documentos digitalizados. Atualmente, existem dois modelos de OCR, o genérico e o inteligente. O OCR genérico é capaz de extrair todo o texto de um documento digitalizado, gerando uma lista bruta das palavras em uma página.
No caso do OCR inteligente, é possível automatizar a extração dos dados para os principais campos de interesse, ao invés de receber um grande bloco de texto. Ou seja, esse modelo permite que o usuário defina um modelo específico para extração apenas dos dados de interesse.
Comparando os dois modelos, o OCR genérico apenas extrai o texto, mas não consegue identificar os campos específicos para extração. Dessa forma, a abordagem requer muito esforço de engenharia para manter uma boa infraestrutura, sem conseguir gerar dados de alta precisão. Já o OCR inteligente consegue extrair os campos desejados. Contudo, requer uma definição manual de regras. Assim, mesmo atingindo níveis maiores de precisão em relação ao OCR genérico, ainda resulta em muitos erros e não consegue ser aplicado de maneira escalável.
Qual a diferença entre um OCR e inteligência artificial?
Embora o OCR inteligente permita uma personalização na extração, há casos específicos que apenas a inteligência artificial possibilitará a acurácia e confiabilidade necessária no reconhecimento e leitura dos documentos.
O OCR simplesmente gera um texto em uma página, que ainda exige uma análise e organização do usuário. Além disso, a variabilidade no layout do texto e no formato do documento resulta em baixa precisão na extração de dados, chegando a 50-70% para documentos simples e 10%-60% para documentos complexos não estruturados. Por mais que o OCR inteligente consiga entregar extrações com até 80% de precisão, ainda são necessárias operações manuais para garantir a confiabilidade das informações.
Analisando do ponto de vista de execução da ferramenta, um sistema de OCR ainda exige uma equipe de engenheiros para dar suporte à análise e manutenção da solução, mesmo sem conseguir entregar valor ao usuário.
No caso de documentos complexos, como uma matrícula de imóvel, que possui muitos campos, gravames e não há uma padronização única, somente a inteligência artificial é capaz de dar contexto às extrações, conseguindo estruturar os campos, mesmo que sejam complexos.
Assim, com ajuda da inteligência artificial e do machine learning — aprendizado de máquina, que se desenvolve de forma automatizada —, é possível dar contexto às situações, aumentando o histórico de informação da tecnologia. Ou seja, aproveitar o aprendizado de máquina é fundamental para obter uma solução de processamento de documentos verdadeiramente automatizada e de alta qualidade, mesmo em tipos de documentos altamente variáveis e desafiadores.
Portanto, ao juntar as duas tecnologias, OCR e IA/Machine Learning, é possível criar um sistema robusto e completo que consegue capturar, classificar e armazenar os dados de modo a facilitar a sua recuperação e a possibilitar a identificação de correlações entre eles.
Conheça a R.E.A: inteligência artificial da Docket para a leitura de matrícula de imóvel
Para dar mais celeridade ao mercado imobiliário e empresas que precisam analisar matrículas de imóvel, a Docket desenvolveu a Real Estate Analysis (R.E.A.), um sistema que faz a pré-análise de matrículas de imóveis de forma rápida, segura e eficiente.
A R.E.A é uma solução robusta que possui uma execução de OCR, que faz parte da primeira etapa para a criação de um sistema completo de processamento de documentos. Nesse cenário, em conjunto com o OCR, a inteligência artificial cumpre o papel de trazer acurácia e confiabilidade para o sistema.
A inteligência artificial da R.E.A. se desenvolve por meio de técnica de machine learning, no qual a máquina é treinada para aprender a ler e identificar as informações necessárias do nicho imobiliário em contextos distintos.
Para desenvolver a acurácia da R.E.A, o laboratório de inteligência artificial da Docket realiza pesquisas e estudos sobre termos relacionados ao Real Estate Deep Learning, com um robô exclusivo para estudo e aprendizado de termos e sinônimos do documento e das operações do nicho imobiliário. Dessa forma, o modelo é treinado em milhões de pontos de dados, sempre refinando seu conhecimento e aumentando sua base de informações.
.Assim, com a R.E.A, é possível:
- gerar relatórios automatizados com informações de descritivo inicial do imóvel (localização, primeiro proprietário, inscrição e composição);
- sinalização sobre quem é o atual proprietário (o que assegura que o imóvel em garantia esteja realmente no nome daquela pessoa);
- identificação de gravames, como: usufruto, alienação fiduciária e hipoteca.
Com isso, se antes um um profissional da área de backoffice levava, em média, de 10 a 15 minutos para analisar de 3 a 5 páginas das matrículas de imóvel, a R.E.A lê uma matrícula completa em segundos. Portanto, é uma solução que pode reduzir até 40% o tempo de análises de matrícula, impactando na redução de erros humanos, diminuindo os riscos das operações.
Se você se interessou por essa solução e quer entender melhor como a solução funciona, ouça nosso podcast e entenda como o uso da inteligência artificial pode ser usado na leitura de matrículas de imóvel.