Introducción
Un documento pdf puede ser básicamente de dos tipos:
Archivo de sólo imagen. Se trata del archivo generado mediante el escaneado de un documento. Aunque tenga la extensión pdf, se trata de una fotografía o mapa de bits. En este tipo de documentos es imposible extraer información en texto.
Documento. Documento generado mediante exportación a pdf desde word, excel o cualquier otro software de edición. Este documento contiene una capa con la imagen y otra capa con el texto incluido en dicha imagen.
Adminet puede realizar el análisis automático de facturas, únicamente desde archivos pdf de tipo documento. Los que sean archivo de sólo imagen deberán ser identificados manualmente por el usuario.
Funcionamiento
Cuando una factura es guardada en la carpeta Facturas a identificar, queda asociada al industrial que la remitió, ya sea por identificación automática del correo del remitente o por indicación manual del usuario.
El Análisis del contenido de facturas es un subproceso de la identificación de facturas mediante plantillas. Se ejecuta factura por factura y contrasta los datos de la capa de texto del documento pdf con las plantillas de facturas pdf del industrial al que estçá asociada la factura, por orden de creación, hasta que encuentra una con la que puede identificar todos sus valores sin ningún error. Los valores asociados son guardados en la carpeta Facturas a identificar, junto al documento.
Si logra identificar todos sus datos, el proceso de identificación de facturas mediante plantillas la asociará a la factura registrada si ya existe o, si no, creará un nuevo registro de factura vinculando el documento.
Si no logra identificar todos sus datos, guarda aquellos que sí ha logrado extraer, para una posterior identificación manual.
imagen de una factura identificada con sus textos
Haga clic aquí para ver cómo configurar una plantilla de factura en pdf.