iNGENET Bitácora | El aprendizaje de máquina es el corazón de la Inteligencia Artificial: Carlos A. Coello Coello

La lógica difusa es una de las técnicas más populares del manejo de incertidumbre utilizadas en la Inteligencia Artificial (IA) en la vida real. “El uso de este algoritmo en la Robótica se puede observar en el diseño de robots que pueden realizar tareas de coordinación, por ejemplo, que tienen que trasladar un objeto de un lado a otro”, explicó Carlos A. Coello Coello, miembro de El Colegio Nacional, en el cuarto día de actividades del curso Una breve introducción a la Inteligencia Artificial y sus aplicaciones.

Recordó que la llamada lógica difusa, en inglés fossil logic, fue una propuesta de Lofti Zadeh, investigador de origen iraní que estudio en Estados Unidos. Él “desarrolló el concepto de conjunto difuso con la finalidad de considerar los numerosos conceptos que se utilizan en el razonamiento humano, que son intrínsecamente vagos e Imprecisos, por ejemplo, viejo o alto. Posteriormente desarrolló la lógica difusa para considerar la imprecisión de los cuantificadores de lenguaje natural, por ejemplo: muchos, y de algunas oraciones como: no muy probable”.

“Puesto que muchos expertos expresan conocimiento usando un conjunto similar de cuantificadores imprecisos y subjetivos, la lógica difusa parece una técnica adecuada para manejar incertidumbre en la IA”, agregó el computólogo mexicano. Explicó que lo más utilizado son los sistemas de inferencia difusa, los cuales usan reglas difusas para tomar decisiones o para efectuar tareas de razonamiento. “Estos sistemas cuentan con tres componentes: una base de datos con reglas difusas, un motor de inferencia difusa y un módulo de defuzzificación”.

De acuerdo con el experto, entre las ventajas de la lógica difusa, se encuentran que es una técnica que goza de popularidad, porque para los ingenieros resulta obvio su funcionamiento, de hecho, “las primeras aplicaciones se utilizaron en la ingeniería más que en la inteligencia artificial. Cabe destacar que la mayoría de la gente que hace IA son gente de Ciencias de la Computación, muchos con una formación de origen en Matemáticos y físicos. El caso de la Lógica difusa es que es una herramienta muy común entre los ingenieros eléctricos”.

“Se ha usado lógica difusa para modelar cuestiones como el análisis de sentimientos en los textos, por ejemplo, para determinar si una persona está enojada o deprimida, a partir de lo que escribió en redes sociales, o simplemente para buscar a una persona en una base de datos y cuyos datos no son exactos, ese mismo ejemplo funciona en algunos buscadores de internet”, enfatizó el ingeniero.

El aprendizaje de una máquina

En palabras del colegiado, el aprendizaje de máquina es el corazón de la inteligencia artificial el día de hoy. En un artículo de 1959, el pionero en los campos de los juegos informáticos, Arthur Samuel, acuñó el término el aprendizaje de la máquina, para referirse a un programa que diseñó que aprendió a jugar damas a partir de jugar contra sí mismo. “El aprendizaje en general, de manera abstracta, se refiera a la mejora en el desempeño del algoritmo”.

Sostuvo que un programa aprende cuando mejora su desempeño en tareas futuras después de realizar algún tipo de observación. Las mejoras y las técnicas utilizadas para realizar tales mejoras dependen de cuatro factores principales: reconocer el componente que se mejorará; con qué conocimiento previo se cuenta; qué representación se usa para los datos y para el componente; y de qué retroalimentación se dispone para aprender.

Hay tres tipos de retroalimentación que determinan los tres tipos principales de aprendizaje: el aprendizaje no supervisado, se aprenden patrones en la entrada, aunque no se suministre una retroalimentación explícita. La tarea más común es la denominada clustering en la que se busca detectar clústeres potencialmente útiles de ejemplos de entrada. El? aprendizaje por refuerzo, se aprende de una serie de refuerzos, recompensas o?castigos. Y el aprendizaje supervisado, se observan ejemplos de pares entrada-salida y se aprende una función que mapea las entradas con las salidas.

“En la práctica, no siempre es posible hacer una distinción clara entre estos tipos de aprendizaje. Por ello existe también el denominado aprendizaje semi-supervisado, en el que se proporcionan unos pocos ejemplos etiquetados y luego debemos lidiar con una enorme colección de datos sin etiquetar”.

Dejando a un lado las técnicas de aprendizaje, otro tema que tiene que ver con esto, son los árboles de decisión, un algoritmo de aprendizaje supervisado no paramétrico, porque no tienen que utilizar valores numéricos de un tipo, que se utiliza tanto para tareas de clasificación como de regresión, detalló Coello Coello. “Tiene una estructura jerárquica de árbol, que consta de un nodo raíz, ramas, nodos internos y nodos de hoja. A diferencia de otros algoritmos, un árbol de decisión pude manejar atributos discretos y numéricos usándolos bajo condiciones de división representadas por símbolos. El aprendizaje usando árboles de decisión adopta una estrategia del tipo “divide y vencerás” realizando una búsqueda codiciosa para identificar los puntos de división óptimos dentro de un árbol”.

El experto recordó que las ventajas de los árboles de decisión son que pueden manejar datos numéricos y categóricos. Pero las desventajas son que pueden crearse árboles de decisión demasiado complejos que no generalicen bien los datos. “A eso se le llama sobreajuste. Significa que pueden ser inestables debido a que pequeñas variaciones en los datos pueden generar árboles completamente diferentes”.

La teoría del aprendizaje computacional

De acuerdo con el colegiado, las tres teorías de aprendizaje más destacadas son: el aprendizaje correcto probablemente aproximado (PAC learning) es un entorno para el análisis matemático del aprendizaje de máquina que fue propuesto en 1984 por Leslie Valiant. En este entorno, quien aprende recibe muestras y debe seleccionar una función de generalización, que se denomina “la hipótesis”, de entre una cierta clase de funciones posibles. La meta es que, con una alta probabilidad, la función seleccionada tenga un error bajo de generalización. De tal forma que quien aprende debe ser capaz de aprender un concepto dada cualquier tasa de aproximación arbitraria, probabilidad de éxito o distribución de las muestras.

La teoría de Vapnik – Chervonenkis, que fue desarrollada en el período de 1960 a 1990 por Vladimir Vapnik y Alexey Chervonenkis para intentar explicar el proceso del aprendizaje computacional desde un punto de vista estadístico. Cubre al menos cuatro aspectos: la teoría de la consistencia de los procesos de aprendizaje, que implica preguntas como ¿Cuáles son las condiciones para que haya consistencia en un proceso de aprendizaje con base en el principio empírico de minimización de riesgos?; la teoría no-asintótica de la tasa de convergencia de los procesos de aprendizaje; a teoría del control de la capacidad de generalización de los procesos Aprendizaje; y la teoría de construcción de máquinas de aprendizaje, ¿cómo se pueden construir algoritmos que puedan controlar la capacidad de generalización?

La tercera teoría es la de Boosting, un método de tipo “ensemble” utilizado para reducir los errores en el análisis predictivo de datos. Fue propuesto por Robert Schapire en 1990 y con esta técnica se entrenan varios estudiantes débiles y se va agregando a un estudiante fuerte.

“Con base en algunos hallazgos en neurociencias, en particular, la hipótesis de que la actividad mental consiste principalmente de actividad electroquímica en redes de células cerebrales llamadas neuronas, en los orígenes de la lA se propuso un tipo de modelo denominado red neuronal artificial, a esta área también se le ha llamado conexionismo y cómputo neuronal”, sostuvo Coello.

Agregó que una red neuronal artificial consiste en unidades o nodos conectados, a los que se denomina neuronas artificiales. “Estas neuronas están conectadas mediante enlaces que modelan la sinapsis del cerebro. Cada neurona artificial recibe señales de las neuronas conectadas a ella, posteriormente procesa dichas señales y envía una señal a otras neuronas conectadas. La “señal” es un número real, y la salida de cada neurona se calcula con alguna función no lineal de la suma de sus entradas, a esto se le llama función de activación. La fortaleza de la señal en cada conexión está determinada por un peso, el cual se ajusta durante el proceso de aprendizaje”.

Típicamente, las neuronas se organizan en capas. “Diferentes capas pueden realizar diferentes transformaciones a sus entradas. Las señales viajan de la primera capa, la capa de entrada, a la última, la capa de salida, posiblemente pasando a través de múltiples capas intermedias, capas ocultas. Una red neuronal suele ser llamada profunda si tiene al menos dos capas ocultas”, concluyó el colegiado.

Fuente: Agencia ID.

Comments are closed.

IMPORTANTE:
Sí: El usuario podrá preguntar, felicitar, realizar críticas constructivas y/o contribuir con opiniones relevantes en el campo de la ingeniería e infraestructura.
No: Molestar, intimidar o acosar de ninguna manera.Tampoco utilizará el espacio para la promoción de productos o servicios comerciales, así como de cualquier actividad que pueda ser calificada como SPAM.

Para saber más consulta los Términos de Uso de INGENET.

TEMAS

ETIQUETAS

BITÁCORA

El aprendizaje de máquina es el corazón de la Inteligencia Artificial: Carlos A. Coello Coello

BUSCAR