Como usar o AWS Textract OCR para extrair texto e documentar dados

Muitas empresas utilizam os tradutores humanos para inserir dados manualmente em formulários, aplicaciones e outros documentos físicos. Aunque muy preciso, é lento y caro. AWS Textract utiliza o aprendizado automático para automatizar este processo.

índice de conteúdo

  1. Por que você está usando o AWS Textract?
  2. Usando Textract

Por que você está usando o AWS Textract?

Textract certamente não é a única herramienta de reconhecimento ótico de caracteres: hay muchas soluções de cdigo aberto disponíveis de forma gratuita, como Tesseract OCR. Puede leer nuestra gua para usarlo for obtener ms informacin.

Textract, sin embargo, es mucho ms que solo OCR, ya que está destinado a analisar e extraer dados de formulários, tablas e outros documentos. É capaz de extraer pares clave-valor, tablas e outras cadenas clave importantes, para que seja efetivamente utilizável como uma interface entre documentos escaneados e uma base de dados (aunque tendr que configurar esa automatizacin usted mismo).

O outro encanto é que Textract tem OCR disponível como um serviço no núcleo completamente administrado. Não tem que configurar seus próprios servidores de aplicações para realizar OCR e compreender o resultado; configure o Textract e envie os documentos de forma simples, produzindo os resultados.

Para as empresas que realizam o manual de dados de entrada, Textract pode guardar um arquivo muy de dinero, tanto nas horas de trabalho reduzidas dedicadas a escrever em um teclado, como no hecho de que puede processar por lotes muchos elementos a la vez , aumentando enormemente a velocidade de entrada de dados.

En trminos de precio, Textract es ms econmico para texto diretor, como escanear pginas de libros. Por isso, cuesta solo $ 1,50 por 1000 pginas. Para analisar as tablas, custa $ 15,00 por 1000 páginas. Para os pares clave-valor, custa $ 50,00 por 1000 páginas. Si bien no es exatamente gratis, definitivamente es mejor pagarle a humano para que lo haga manualmente.

Textract é bastante preciso, pero si le preocupa que la mquina haga algo mal, AWS tambin tiene una solucin para eso. Puede configurar Textract para usar Flujo de trabajo de IA aumentada da Amazon , que informamticamente os resultados com baixa confiabilidade aos humanos para sua revisão.

Usando Textract

Vaya a la Consola de administração de Textract y haga clic em "Iniciar". Usando o console manualmente, você pode carregar os documentos usando o botn aqu:

Textract para processar de imediato. Ver rpidamente qu hace que Textract mar tan til; saba qu fragmentos de texto deste mdulo W2 eram importantes, cules eran parte de pares clave-valor, cules eran parte de tablas y cules poda descartar.

A la derecha, encontrar la salida, que mostra todas as cadenas sin processar todos, pares clave-valor y todas as tablas de dados. Tenga en cuenta que estos no son mutuamente excludentes, ya que en este caso encontr pares clave-valor que tambin eran parte de tablas.

Você pode baixar os resultados e encontrar um arquivo CSV de todas as tablas e pares clave-valor, como um arquivo de texto da salida de texto sin procesar.

Se você automatizar o Textract, poderá usar a AWS CLI ou API. Textract tem seu propio conjunto de comandos para trabalhar com a lnea de comandos.

Usado tambin pode serializar o documento em bytes de documento codificados em base64 ou crguelo em S3 yda Textract una clave para encontrar. Entonces pode usar analyze-document para empezar un trabajo:

 aws text analyze-document --document '{"S3Object":{"Bucket":"bucket","Name":"document"}}' --feature-types '["TABLES","FORMS"]'

Esta é uma operação sincrnica, pero se pode analisar de forma asincrnica iniciando um trabalho de luego recuperando os resultados manualmente.

 aws text get-document-analysis --job-id df7cf32ebbd2a5de113535fcf4d921926a701b09b4e7d089f3aebadb41e0712b --max-results 1000
  • Cmo conectar em cascata todas as suas janelas no Windows 10
  • Cmo transmitir os desenhos animados especiais de Navidad de Rankin / Bass

Descobre ms contenido

Que é um amplificador integrado?

Google Pixel Watch também tem detecção de cadas, pero no hasta el prximo ao

Las melhores tazas de caf calentadas de 2022

Cmo automatize seu iPhone segn el tiempo, la actividad ou la ubicacin

"Eso debe haber sido antes de mi tiempo"

Por qu la NASA enva a Snoopy a la Luna? – Revisando geek

Deja una respuesta Cancelar la respuesta

¿Qué es OCR y para qué sirve?

O reconhecimento óptico de caracteres ( OCR ) é o processo por meio do qual se converte uma imagem de texto em um formato de texto que pode ser lido nas máquinas. Por exemplo, se escanea o formulário ou um recibo, seu computador guarda o escaneo como um arquivo de imagem.

¿Como funciona Amazon Textract?

Funcionamento . O Amazon Textract é um serviço de aprendizado de máquina (ML) que extraia o texto, escreve a mão e os dados de documentos escaneados de modo automático. Mais todos os simples reconhecimento óptico de caracteres (OCR) para identificar, compreender e extrair dados de formulários e tabelas.

Ir arriba