none
Automatizar extracción de metainformación en proceso de digitalización de documentos RRS feed

  • Pregunta

  • Hola,

    se me ha planteado la necesidad de realizar un proceso de digitalización de documentos a partir de papel y su posterior procesado antes de importarlos en una librería de SharePoint. El proceso creo tenerlo claro, pero no tanto las herramientas a utilizar:

    1.- Digitalización de los documentos.

    2.- Extracción de metainformación del propio documento.

    3.- Importación del documento a SharePoint insertando además la metainformación extraida en el paso anterior.

    En cuanto a las herramientas a utilizar, tengo claro que un escáner corrientito puede digitalizar un documento o un lote de ellos, incluso hay algunos que tienen un software que permite la de separación de expedientes en base a hojas en blanco o códigos de barras o QR. Lo que no tengo claro son las herramientas que hacen extracción de metainformación de los documentos y después como se le indica a SharePoint a que campos de la biblioteca corresponde cada dato de la metainformación obtenida.

    Resumiendo .. aquellos que habéis realizado un proceso como este ¿Qué herramienta habéis utilizado?. La idea es obtener como resultado una biblioteca con documentos en Word o PDF en modo texto o como imagen (lo que sea más usual), con metainformación del tipo Cod Factura, NIF Cliente, Importe, etc. asociada al documento. En cuanto a tenerlo en modo texto o imagen, ¿qué es lo usual?.

    Gracias.


    Saludos.

    miércoles, 7 de enero de 2015 17:30

Respuestas

  • Hola,

    Para hacer esto tienes que hacer OCR en la documentación escaneada y para conseguirlo tienes dos posibilidades:

    • Productos de terceros que te hacen OCR y te cargan la documentación junto con los metadatos extraídos en SharePoint.
    • Crear tus propios componentes de extracción haciendo uso de librerías de tercero de pago o gratuitas.

    Un ejemplo del primer punto lo tienes con la aplicación GScan...un ejemplo del segundo caso lo tienes en la librería de Orpalis.

    Saludos


    ------------------------------------------------------------
    Juan Carlos Gonzalez Martin
    MVP de SharePoint Server - Director revista CompartiMOSS:
    http://www.compartimoss.com
    Blog: http://geeks.ms/blogs/jcgonzalez
    Twitter: @jcgm1978
    ------------------------------------------------------------

    • Marcado como respuesta Hubrich jueves, 8 de enero de 2015 9:30
    jueves, 8 de enero de 2015 7:07