Hermilo Sánchez Cruz, secretario técnico de la Maestría en Ciencias con opción a Computación, Matemáticas Aplicadas por la Universidad Autónoma de Aguascalientes (UAA), y Mario Alberto Rodríguez Díaz, coordinador de la Maestría en Ciencias de la Ingeniería por el Instituto Tecnológico de Aguascalientes (ITA) —que pertenece al Tecnológico Nacional de México (Tecnm)—, desarrollan un modelo de compresión de datos.
Ambos han estudiado la distribución de probabilidad de la aparición de símbolos en los mensajes que se van a codificar, pues entre más precisa es esta información, más eficiente será la compresión.
En esta materia, se han especializado en imágenes en blanco y negro y en escala de grises. En ambas se repiten patrones, por ello han realizado análisis para identificar aquellas pautas que son redundantes dentro de la imagen; con base en ello propusieron un método para reconocer esos caracteres, de esta manera solamente se codifica uno o pocos ejemplares por cada carácter a manera de patrón y se disminuye la cantidad de datos a almacenarse.
Imágenes en blanco y negro
Hermilo Sánchez indicó que durante su posdoctorado trabajó con un código de cadena llamado Three Octagonal Symbol Change Code (3OT), que es una curva en tres dimensiones, misma que decidió utilizar para representar los contornos de los objetos binarios en las imágenes y comprimir la redundancia en la información, como resultado observó que las imágenes ocupaban poca memoria en comparación con el objeto original.
“Entonces empecé a buscar compresores de blanco y negro, y resultó que mi método daba mayor compresión, pues eso es bien padre, porque estoy mejorando algo respecto a un estándar internacional. Seguí trabajando con esos métodos de codificación de objetos binarios, hasta creamos el caso tridimensional, para proponer nuevos códigos”, comentó.
Entonces realizó, junto con Mario Alberto Rodríguez, un estudio de las técnicas que son los estándares en la literatura, como JPEG, JPEG-LS, PNG y CALIC, esto para observar cómo funcionan y de qué manera el algoritmo desarrollado podría competir con ellas.
Para hacer una comparativa del código de cadena 3OT con un estándar internacional conocido como JBIG2, utilizaron imágenes del Comité Consultivo Internacional Telegráfico y Telefónico (CCITT) y obtuvieron como resultado 27 por ciento de mejor compresión a 200 puntos por pulgada (dpi, por sus siglas en inglés) y 65 por ciento a 600 dpi. En un ejercicio similar, pero con el DjVu, los resultados fueron de seis por ciento de mejora a 200 dpi y 35 por ciento en el caso de 600 dpi.
Escala de grises
Por su parte, Mario Alberto Rodríguez mencionó que actualmente trabajan en la compresión de imágenes en escala de grises, el enfoque que manejan es la codificación de un pixel a otro en su nivel de gris, para ello utilizan el mismo código denominado 3OT, pues les permite representar una imagen como una cadena de caracteres. De esta manera, se pasa del dominio de la imagen al dominio de código de cadena y, posteriormente, se realiza la compresión.
A diferencia de las imágenes en blanco y negro, donde los objetos son binarios, el método en la escala de grises involucra 256 posibles tonos —del 0 al 255—. Este valor dependerá de diferentes factores, como la posición actual o el nivel de gris dentro de la imagen, por ejemplo, en un pixel con un nivel de gris de valor 100, la posibilidad de que el siguiente sea de 101 a 255 es mayor que de 0 a 99, esto, porque son más posibles valores.
“Otro es el histograma de la imagen, que básicamente son cuántos pixeles de cada intensidad hay en la imagen, es la distribución de los valores de grises en toda la imagen, obviamente también de eso va a depender. Y también de los pixeles vecinos, normalmente en una imagen, en un pixel dado, sus vecinos son similares a su valor actual, solo cambian cuando pasa de un objeto a otro en la imagen, entonces también se toma en cuenta la vecindad”, destacó.
Para ello, están probando el código de cadena 3OT con una mezcla de contexto, en este, varios modelos se toman en cuenta para hacer la predicción de los caracteres en el código, posteriormente, se hace una suma ponderada y haciendo uso de una red neuronal, se determina cuáles modelos son los que van a mantenerse, así como la probabilidad final de cada uno de los elementos del código. Los parámetros se pasan a un codificador aritmético, en donde finalmente se generan los bits del código comprimido.
Otro enfoque que se desarrolla es la utilización de un autómata finito determinístico, este permite cambiar de estados, de esta manera, dependiendo del estado en que se encuentra la codificación, puede predecir el siguiente símbolo. En el código de cadena 3OT se tienen solamente tres símbolos: 0, 1 o 2, si actualmente estamos en el 0, este método busca determinar la probabilidad de que siga otro 0, un 1 o 2, pero esta posibilidad no será la misma para todos los ceros, pues va a depender del contexto en el que se encuentre en ese momento.
“Un ejemplo típico de contexto es en el idioma inglés: la letra ‘u’ tiene una probabilidad de 2.2 por ciento de aparecer en un texto, o sea, si estás leyendo un texto, para que la siguiente letra sea una ‘u’ es una probabilidad de 2.2 por ciento; sin embargo, si de antemano conoces que la letra actual es la ‘q’, después de una ‘q’, la probabilidad de que aparezca una ‘u’ es de 99.5 por ciento. Entonces el contexto da bastante más información para poder predecir con más precisión el siguiente carácter”, explicó.
En la actualidad, Mario Alberto Rodríguez y Hermilo Sánchez están realizando pruebas para comparar los métodos del 3OT con CALIC y JPEG-LS, que son el estado del arte en relación con imágenes en escala de grises, para ello se están utilizando los benchmarks de la Universidad de Waterloo. En los resultados preliminares, han superado al CALIC en las imágenes donde se presentan 128 o menos tonalidades.
Usos del compresor
Hermilo Sánchez comentó que además de mejorar la eficiencia del código de cadena 3OT y de continuar publicando sus resultados, buscarán registrar este modelo de compresión de datos, esto para vincularse con alguna empresa de software para comercializarlo.
“Es un método de almacenamiento de información, sabemos que los archivos de imágenes ocupan información en las computadoras, un método de compresión eficiente hace que ocupen menos bits. Podemos almacenar más imágenes en un mismo disco, facilita la transmisión porque es un paquete más pequeño de información el que se manda a través de una red o de Internet, o se almacena más en un mismo disco”, finalizó.
Fuente: CONACYT.
IMPORTANTE:
Sí: El usuario podrá preguntar, felicitar, realizar críticas constructivas y/o contribuir con opiniones relevantes en el campo de la ingeniería e infraestructura.
No: Molestar, intimidar o acosar de ninguna manera.Tampoco utilizará el espacio para la promoción de productos o servicios comerciales, así como de cualquier actividad que pueda ser calificada como SPAM.
Para saber más consulta los Términos de Uso de INGENET.