OCR – Optical Character Recognition – Concepto o significado.
Contenido
Son siglas que corresponden a Optical Character Recognition, en inglés; cuya traducción al castellano es “Reconocimiento Óptico de Caracteres”, consiste en una tecnología que trata de “lograr el reconocimiento del tipo de letra con el que está hecho un documento”.
Consiste en un software diseñado para digitalizar textos; estos programas permiten identificar automáticamente en una imagen, símbolos o caracteres de un alfabeto para luego almacenarlos en forma de datos para que a posteriori, sean utilizados como tal por cualquier otro programa o aplicación que lo necesite.
Su función principal es “interpretar imágenes escaneadas de texto escrito a mano, mecanografiada o impresa en texto que pueden ser editados en un ordenador o computadora”, mediante la identificación de patrones, inteligencia y visión artificial, estos elementos trabajan juntos para realizar el reconocimiento óptico.
El tipo de imagen que escanea generalmente proviene de una factura, tarjeta de visita, extracto bancario, pasaporte, artículo de revista, contrato en PDF u otra documentación.
La automatización de caracteres permite mejorar la calidad de los servicios relacionados con la producción de información escrita, ahorro de servicios y amplía la productividad.
Por ejemplo, ABBYY FineReader, es una aplicación que une el reconocimiento de caracteres y PDF, para una mayor productividad comercial cuando se trabaja con documentos. Esta aplicación ofrece potentes herramientas factibles para acceder a la información guardada en documentos en papel escaneados y en archivos PDF.
¿Cómo Funciona?
Es un sistema muy sencillo, basado en un escaneado a través de un mapa de bits que reconoce cada carácter del texto en cuestión con los aspectos de luz.
Aunque es una tecnología bastante antigua, en la actualidad, recibe aportaciones de los avances en Inteligencia Artificial y ha sido incluida como una pieza importante en las soluciones de Automatización Robótica de Procesos (RPA, ‘Robotic Process Automation') o de Captura Inteligente (‘Intelligent Capture').
- Disponer de un texto en algún formato (en papel o correo electrónico).
- El texto, pasa por un escáner óptico que traduce el formato analógico original en un formato digital para realizar el trabajo.
- Detección de los elementos constituyentes de una imagen y separar las partes de datos y documentos de las que recogen imágenes o figuras para separarlos en letras y palabras. Es un proceso netamente algorítmico (significado de algoritmo). Se le conoce como escaneado óptico.
- En el Pre-Procesado, se produce tanto el rellenado de pequeños gaps o agujeros que puedan haber quedado (‘filling') como el adelgazamiento (‘thinning') de algunas líneas.
Otra técnica que se aplica en paralelo es la normalización mediante la cual se intenta conseguir caracteres de igual tamaño, inclinación y rotación; para hacer más fácil el tratamiento posterior se suele intentar un formato de tipo blanco o negro.
- Una vez que se han obtenido unas imágenes del texto limpias, comprimidas, con bajo ruido y normalizadas, se procede a la segmentación para separar la imagen del texto en sus componentes.
- Luego se aplican tres tipos de métodos: transformación global y expansión en series (‘global transformation and series expansion'), representación estadística y representación topológica/geométrica. Con el fin de lograr simples niveles de gris o binario para lograr el máximo de nitidez en los caracteres.
- En el proceso de extracción de características, se busca capturar las características principales de los símbolos y realizar una clasificación.
- Entrenamiento y reconocimiento aquí se usa ampliamente, tecnología de reconocimiento de patrones, técnicas estadísticas, técnicas estructurales y redes neuronales.
- El tratamiento final está destinado a temas como agrupación (en palabras, números, etc) o detección y eliminación de errores y se apoyan con frecuencia en reglas sintácticas y diccionarios.
- La Salida de texto: que consiste simplemente en la presentación del texto en el dispositivo o medio digital objetivo.
Esta resumida descripción del entramado tecnológico de OCR permite percibir que son soluciones muy complejas y sofisticadas con una gran variedad de técnicas y algoritmos en competencia y evolución.
Programas OCR en el mercado
- LightPDF: Es un herramienta gratuita que permite convertir archivos JPG, PNG y PDF a texto. Es un servicio web muy útil ya que, reconoce infinidad de idiomas, incluyendo inglés, español, alemán, francés, italiano, japonés, etc.
- Space: es un programa de OCR en línea que permite convertir imágenes en formato PNG, JPG y PDF en texto. Admite hasta 20 idiomas, incluidos español, búlgaro, simplificado en chino, croata, checo, danés, etc.
- i2OCR: es un convertidor OCR gratis, reconoce 60 idiomas imágenes en PNG, JPG, BMP, PBM, TIF, PPM, PGM, generando un archivo de texto, PDF o en Word como salida.
- com: es un software OCR gratuito, reconoce hasta 106 idiomas, Las imágenes que contienen columnas tendrán una salida en el mismo formato. No tiene límites para el número de archivos que se pueden subir.
- To-Text OCR Converter: Reconoce más de 40 idiomas, es una herramienta OCR gratuita que puede convertir PDF e imágenes escaneadas en texto editable. Extrae textos de formatos JPEG, JPG, TIFF, GIF y BMP.
- com: convierte documentos PDF, JPG e imágenes escaneadas en textos editables. Es gratis y no permite subir archivos mayores a 5mb.
- ABBYY FineReader: Es un líder en el mercado online, el formato completo tiene un coste de $ 150; no obstante ofrece un servicio gratuito; acepta archivos de 100mb en formatos PDF, JPG, JPEG, TIF, TIFF, PCX, DCX, BMP y PNG.
Ámbitos de aplicación:
- Estudiantil y laboral: a través de OCR se pueden convertir textos de imagen a texto real de forma automática, lo que permitiría a estudiantes y trabajadores producir más en menor tiempo. Igualmente, facilita acceder de forma inmediata a información tomando como punto de referencia una palabra “clave” del texto.
- Digitalización y transformación a texto de documentos y libros históricos que solo están disponibles en papel.
- En el ámbito bancario: para facilitar el ingreso de cheques de forma automática.
- En el área médica: para escanear e introducir formularios con datos de los pacientes a la base de datos.
- En música: facilita la lectura y la reproducción de las notas musicales representadas en un pentagrama.
- Deficiencias visuales y/o auditivas: Este uso del OCR facilita el acceso a la información a personas con deficiencias visuales o auditivas. El texto real que resulta del OCR puede a su vez traducirse al Braille o transformarse en archivos de audio.
Ventajas de aplicar programas OCR
El ahorro del tiempo, recursos y espacio de almacenamiento, la facilidad en la búsqueda de información, el incremento en la productividad, la calidad en la prestación del servicio ya que, el margen de error es mínimo en comparación con el que supone la elaboración de forma manual de textos, se cuentan entre las ventajas en el uso de los programas OCR.
Limitaciones
- Cuando la imagen texto es borrosa, de poca resolución u otro tipo de problemas el resultado no sería satisfactorio.
- Los software de OCR no son perfectos; por tanto es necesario buscar el que mejor se adapte y de los mejores resultados.
- Cuando el texto es manuscrito la dificultad en el reconocimiento se incremente.
- Para realizar un reconocimiento óptico de texto se recomienda un texto en escala de grises; ya que, estos acostumbran a distinguir mejor el texto de imágenes en escala de grises o en blanco y negro que en colores.
Concluyendo…
OCR es un sistema computarizado que permite escanear un documento de texto en ficheros automatizados, que se pueden editar con un procesador de textos en el ordenador. Reconoce numerosos tipos de fuentes inclusive manuscritos.
Podrías leer también las siguientes definiciones