Redes Neuronales
Este elemento es una ampliación de los cursos y guías de Lawi. Ofrece hechos, comentarios y análisis sobre este tema. [aioseo_breadcrumbs] Las redes neuronales son redes de células nerviosas en los cerebros de humanos y animales. El cerebro humano tiene alrededor de 100 mil millones de células nerviosas. Nosotros los humanos debemos nuestra inteligencia y nuestra capacidad de aprender varias capacidades motoras e intelectuales a los complejos relés y a la adaptabilidad del cerebro. Durante muchos siglos, biólogos, psicólogos y médicos han intentado comprender cómo funciona el cerebro. Alrededor de 1900 se produjo la revolucionaria comprensión de que estos pequeños bloques de construcción física del cerebro, las células nerviosas y sus conexiones, son responsables de la conciencia, las asociaciones, los pensamientos, el conocimiento y la capacidad de aprendizaje.
El primer gran paso hacia las redes neuronales en la IA fue dado en 1943 por McCulloch y Pitts en un artículo titulado “Un cálculo lógico de las ideas inmanentes en la actividad nerviosa” [AR88] (contemple varios de estos aspectos en la presente plataforma online de ciencias sociales y humanidades). Fueron los primeros en presentar un modelo matemático de la neurona como elemento básico de conmutación del cerebro. Este artículo sentó las bases para la construcción de redes neuronales artificiales y por lo tanto para esta importante rama de la IA.
Podríamos considerar que el campo del modelado y la simulación de redes neuronales es la rama de la biónica dentro de la IA.1 Casi todas las áreas de la IA intentan recrear procesos cognitivos, como en la lógica o en el razonamiento probabilístico.
Puntualización
Sin embargo, las herramientas utilizadas para el modelado, a saber, las matemáticas, los lenguajes de programación y las computadoras digitales, tienen muy poco en común con el cerebro humano. Con las redes neuronales artificiales, el enfoque es diferente. Partiendo del conocimiento sobre la función de las redes neuronales naturales, intentamos modelarlas, simularlas e incluso reconstruirlas en hardware. Cada investigador en esta área se enfrenta al fascinante y excitante reto de comparar los resultados con el rendimiento (véase una definición en el diccionario y más detalles, en la plataforma general, sobre rendimientos) de los humanos.
En este capítulo intentaremos esbozar la progresión histórica definiendo un modelo de la neurona y su interconectividad, partiendo de los conocimientos biológicos más importantes. A continuación presentaremos varios modelos importantes y fundamentales: el modelo de Hopfield, dos modelos sencillos de memoria asociativa y el algoritmo de retropropagación, que es sumamente importante en la práctica.
De la biología a la simulación
Cada una de las aproximadamente 100.000 millones de neuronas del cerebro humano tiene la misma estructura y función. (Tal vez sea de interés más investigación sobre el concepto). Además del cuerpo celular, la neurona tiene un axón, que puede hacer conexiones locales con otras neuronas sobre las dendritas. El axón puede, sin embargo, crecer hasta un metro de largo en forma de una fibra nerviosa a través del cuerpo.
El cuerpo celular de la neurona puede almacenar pequeñas cargas eléctricas, de forma similar a un condensador o una batería. Este almacenamiento se carga con los impulsos eléctricos entrantes de otras neuronas. Cuantos más impulsos eléctricos entren, mayor será el voltaje. Si el voltaje excede un cierto umbral, la neurona se disparará. Esto significa que descarga su almacén, ya que envía un pico sobre el axón y la sinapsis. La corriente eléctrica se divide y llega a muchas otras neuronas sobre las sinapsis, en las que tiene lugar el mismo proceso.
Ahora surge la cuestión de la estructura de la red neuronal. Cada una de las aproximadamente 1011 neuronas en el cerebro está conectada a aproximadamente 1000 a 10 000 otras neuronas, lo que da un total de más de 1014 conexiones. Si consideramos además que este gigantesco número de conexiones extremadamente delgadas está formado por tejido blando tridimensional y que los experimentos en el cerebro humano no son fáciles de llevar a cabo, entonces queda claro por qué no tenemos un detallado diagrama de circuitos del cerebro. Presumiblemente nunca seremos capaces de entender completamente el diagrama de circuitos de nuestro cerebro, basado únicamente en su inmenso tamaño.
Desde la perspectiva actual, ya no vale la pena ni siquiera intentar hacer un diagrama de circuito completo del cerebro, porque la estructura del cerebro es adaptativa. Se cambia a sí misma sobre la marcha y se adapta según las actividades del individuo y las influencias ambientales. El papel central aquí lo juegan las sinapsis, que crean la conexión entre las neuronas.Entre las Líneas En el punto de conexión entre dos neuronas, es como si dos cables se encontraran.
Puntualización
Sin embargo, los dos cables no son perfectamente conductivos, sino que hay un pequeño hueco, que los electrones no pueden saltar directamente. Este hueco está lleno de sustancias químicas, los llamados neurotransmisores. Estos pueden ser ionizados por un voltaje aplicado y luego transportan una carga sobre el hueco. La conductividad de este hueco depende de muchos parámetros, por ejemplo la concentración y la composición química del neurotransmisor. Es esclarecedor que la función del cerebro reacciona muy sensiblemente a los cambios de esta conexión sináptica, por ejemplo a través de la influencia del alcohol u otras drogas.
¿Cómo funciona el aprendizaje en una red neuronal de este tipo? Lo sorprendente aquí es que no son las unidades activas reales, es decir, las neuronas, las que se adaptan, sino las conexiones entre ellas, es decir, las sinapsis. Específicamente, esto puede cambiar su conductividad. Sabemos que una sinapsis se hace más fuerte por cuánta más corriente eléctrica debe llevar. Más fuerte aquí significa que la sinapsis tiene una mayor conductividad. Las sinapsis que se utilizan a menudo obtienen un peso cada vez mayor. Para las sinapsis que se usan con poca frecuencia o no están activas en absoluto, la conductividad continúa disminuyendo. Esto puede incluso llevar a su desaparición.
Todas las neuronas del cerebro trabajan asincrónicamente y en paralelo, pero, comparadas con un ordenador, a muy baja velocidad. El tiempo de un impulso neuronal tarda alrededor de un milisegundo, exactamente el mismo que el tiempo que tardan los iones en ser transportados por la brecha sináptica. La frecuencia de reloj de la neurona es entonces inferior a un kilohercio y por lo tanto es inferior a la de los ordenadores modernos en un factor de 106.
Puntualización
Sin embargo, esta desventaja se compensa con creces en muchas tareas cognitivas complejas, como el reconocimiento de imágenes, por el altísimo grado de procesamiento paralelo en la red de células nerviosas.
La conexión con el mundo exterior se produce a través de neuronas sensoriales, por ejemplo en la retina de los ojos, o a través de células nerviosas con axones muy largos que llegan desde el cerebro hasta los músculos y por lo tanto pueden llevar a cabo acciones como el movimiento de una pierna.
Sin embargo, todavía no está claro cómo los principios discutidos hacen posible el comportamiento inteligente. Al igual que muchos investigadores de la neurociencia, intentaremos explicar, mediante simulaciones de un simple modelo matemático, cómo las tareas cognitivas, por ejemplo el reconocimiento de patrones, se hacen posibles.
Redes de Hopfield
Mirando la regla de Hebb, vemos que para las neuronas con valores entre cero y uno, los pesos sólo pueden crecer con el tiempo. No es posible que una neurona se debilite o incluso muera según esta regla. Esto puede ser modelado, por ejemplo, por una constante de decaimiento que debilita un peso no utilizado por un factor constante por paso de tiempo, como 0,99.
Este problema se resuelve de forma bastante diferente por el modelo presentado por Hopfield en 1982. Utiliza neuronas binarias, pero con los dos valores -1 para inactivo y 1 para activo. Utilizando la regla de Hebb obtenemos una contribución positiva al peso siempre que dos neuronas están activas simultáneamente.
Puntualización
Sin embargo, si sólo una de las dos neuronas está activa, Δ wij es negativo.
Las redes de Hopfield, que son un bello y visualizable ejemplo de memoria auto-asociativa, se basan en esta idea. Los patrones pueden ser almacenados en la memoria auto-asociativa. Para llamar un patrón guardado, es suficiente con proporcionar un patrón similar. El almacén entonces encuentra el patrón guardado más similar. Una aplicación clásica de esto es el reconocimiento de la escritura.
Análisis
En 1982, John Hopfield demostró en [Hop82] que este modelo es formalmente equivalente a un modelo físico de magnetismo. Los pequeños imanes elementales, llamados espines, se influyen mutuamente sobre sus campos magnéticos.
Si cada iteración individual de la dinámica neural resulta en una reducción de la función de la energía, entonces la energía total del sistema disminuye monótonamente con el tiempo. Debido a que sólo hay muchos estados finitos, la red se mueve en el tiempo a un estado de energía mínima. Ahora tenemos la emocionante pregunta: ¿qué significan estos mínimos de la función de energía?
Como vimos en el experimento de reconocimiento de patrones, en el caso de pocos patrones aprendidos el sistema converge a uno de los patrones aprendidos. Los patrones aprendidos representan los mínimos de la función de energía en el espacio de estado.
Puntualización
Sin embargo, si se aprenden demasiados patrones, entonces el sistema converge a los mínimos que no corresponden a los patrones aprendidos. Aquí tenemos una transición de una dinámica ordenada a una caótica.
Hopfield y otros físicos han investigado exactamente este proceso y han demostrado que de hecho hay una transición de fase en un número crítico de patrones aprendidos. Si el número de patrones aprendidos excede este valor, entonces el sistema cambia de la fase ordenada a la caótica.
En la física magnética existe tal transición desde el modo ferromagnético, en el que todos los imanes elementales tratan de orientarse paralelamente, a un llamado vidrio giratorio, en el que los giros interactúan caóticamente. Un ejemplo más visual de tal transición de fase física es el derretimiento de un cristal de hielo. El cristal está en un alto estado de orden porque las moléculas de H2O están estrictamente ordenadas.Entre las Líneas En el agua líquida, por el contrario, la estructura de las moléculas se disuelve y sus posiciones son más aleatorias.
En una red neuronal hay entonces una transición de fase desde el aprendizaje ordenado y el reconocimiento de patrones a un aprendizaje caótico en el caso de demasiados patrones, que ya no pueden ser reconocidos con certeza. Aquí definitivamente vemos paralelos con los efectos que ocasionalmente experimentamos nosotros mismos.
Perspectivas
Gracias a su plausibilidad biológica, al modelo matemático bien comprendido y, sobre todo, a las impresionantes simulaciones en el reconocimiento de patrones, el modelo de Hopfield contribuyó a una ola de entusiasmo por las redes neuronales y al auge de la neuroinformática como una rama importante de la IA2 . Por una parte, se investigaron las redes sin retroacoplamientos porque su dinámica es considerablemente más fácil de comprender que las redes recurrentes de Hopfield. Por otra parte, se intentó mejorar la capacidad de almacenamiento de las redes, que se examinará en la siguiente sección.
Un problema especial de muchos modelos neuronales ya era evidente en el modelo de Hopfield. Incluso si hay una garantía de convergencia, no es seguro que la red converja a un estado aprendido o se quede atascada en un mínimo local. La máquina de Boltzmann, con valores de activación continua y una regla de actualización probabilística para su dinámica de red, fue desarrollada como un intento de resolver este problema. Utilizando un parámetro de “temperatura”, podemos variar la cantidad de cambios de estado aleatorios y así intentar escapar de los mínimos locales, con el objetivo de encontrar un mínimo global estable. Este algoritmo se llama “recocido simulado”. El recocido es un proceso de tratamiento térmico de metales con el objetivo de hacer el metal (véase definición, y una descripción de metal) más fuerte y más “estable”.
El modelo de Hopfield lleva a cabo una búsqueda de un mínimo de la función de energía en el espacio de los valores de activación. (Tal vez sea de interés más investigación sobre el concepto). De este modo encuentra el patrón guardado en los pesos, y que por lo tanto está representado en la función de energía. La dinámica de Hopfield también puede aplicarse a otras funciones de energía, siempre y cuando la matriz de pesos sea simétrica y los elementos diagonales sean cero. Esto fue demostrado con éxito por Hopfield y Tank en el problema del vendedor viajero [HT85, Zel94]. La tarea aquí es, dadas n ciudades y su matriz de distancia, encontrar el viaje de ida y vuelta más corto que visite cada ciudad exactamente una vez.
Memoria Neural Asociativa
Una memoria de lista tradicional puede ser, en el caso más simple, un archivo de texto en el que se guardan cadenas de dígitos línea por línea. Si el archivo se ordena por línea, entonces la búsqueda de un elemento puede hacerse muy rápidamente en tiempo logarítmico, incluso para archivos muy grandes.
Sin embargo, la memoria de lista también puede utilizarse para crear mapeos. Por ejemplo, una guía telefónica es un mapeo del conjunto de todos los nombres introducidos al conjunto de todos los números de teléfono. Esta asignación se implementa como una simple tabla, normalmente guardada en una base de datos.
El control de acceso a un edificio mediante el reconocimiento facial es una tarea similar. Aquí también podríamos utilizar una base de datos en la que se guarda una foto de cada persona junto con el nombre de la persona y posiblemente otros datos. La cámara de la entrada toma una foto de la persona y busca en la base de datos una foto idéntica. Si la foto es encontrada, entonces la persona es identificada y tiene acceso al edificio.
Puntualización
Sin embargo, un edificio con un sistema de control de este tipo no recibiría muchos visitantes porque la probabilidad de que la foto actual coincida exactamente con la foto guardada es muy pequeña.
En este caso no es suficiente con sólo guardar la foto en una tabla. Más bien, lo que queremos es una memoria asociativa, que sea capaz no sólo de asignar el nombre correcto a la foto, sino también a cualquiera de un conjunto potencialmente infinito de fotos “similares”. Una función para encontrar la similitud debe generarse a partir de un conjunto finito de datos de entrenamiento, a saber, las fotos guardadas etiquetadas con los nombres. Un enfoque simple para esto es el método del vecino más cercano introducido en la Secc. 8.3. Durante el aprendizaje, todas las fotos se guardan simplemente.
Para aplicar esta función, la foto más parecida a la actual debe encontrarse en la base de datos. Para una base de datos con muchas fotos de alta resolución, este proceso, dependiendo de la métrica de distancia utilizada, puede requerir tiempos de cálculo muy largos y por lo tanto no puede ser implementado de esta forma tan simple.
Una Conclusión
Por lo tanto, en lugar de un algoritmo tan perezoso, preferiremos uno que transfiera los datos a una función que luego cree una asociación muy rápida cuando se aplique.
Encontrar una métrica de distancia adecuada presenta un problema adicional. Quisiéramos que se reconociera a una persona aunque su rostro aparezca en otro lugar de la foto (traducción), o si es más pequeño, más grande o incluso girado. El ángulo de visión y la iluminación también pueden variar.
Aquí es donde las redes neuronales muestran sus puntos fuertes. Sin requerir que el revelador piense en una métrica de similitud adecuada, siguen dando buenos resultados. Presentaremos dos de los modelos de memoria asociativa más simples y comenzaremos con un modelo de Teuvo Kohonen, uno de los pioneros en esta área.
El modelo de Hopfield presentado en el capítulo anterior sería demasiado difícil de utilizar por dos razones.Entre las Líneas En primer lugar, se trata sólo de una memoria auto-asociativa, es decir, una cartografía aproximadamente idéntica que mapea objetos similares al original aprendido.Entre las Líneas En segundo lugar, la compleja dinámica recurrente suele ser difícil de manejar en la práctica.
Una Conclusión
Por lo tanto, ahora veremos redes simples de avance de dos capas.
Redes lineales con errores mínimos
La regla Hebb utilizada en los modelos neurales presentados hasta ahora funciona con asociaciones entre neuronas vecinas.Entre las Líneas En la memoria asociativa, esto se explota para aprender un mapeo de los vectores de consulta a los objetivos. Esto funciona muy bien en muchos casos, especialmente cuando los vectores de consulta son linealmente independientes. Si esta condición no se cumple, por ejemplo cuando se dispone de demasiados datos de entrenamiento, surge la pregunta: ¿cómo encontramos la matriz de peso óptimo? Óptimo significa que minimiza el error promedio.
Los humanos somos capaces de aprender de los errores. La regla Hebb no ofrece esta posibilidad. El algoritmo de retropropagación, descrito a continuación, utiliza una elegante solución conocida de aproximación de funciones para cambiar los pesos de manera que el error en los datos de entrenamiento se minimice.
Aprendizaje profundo
En otros lugares de esta plataforma se puede observar que hoy en día hay muchos buenos algoritmos de aprendizaje capaces de aprender clasificaciones o aproximaciones no triviales, a veces complejas, para todo tipo de aplicaciones, como el diagnóstico y el pronóstico basado en las entradas de los sensores. También hemos visto que, hasta ahora, la generación de características no ha tenido éxito.Entre las Líneas En su lugar, la tarea de un científico de datos es encontrar un pequeño conjunto sensato de características, que pueda utilizarse como entrada para el algoritmo de aprendizaje.
¿Por qué no usamos simplemente todos los datos disponibles del sensor, es decir, una imagen directa del mundo, como entrada? Por ejemplo, para el reconocimiento de objetos en una foto podríamos utilizar los diez millones de píxeles como vector de entrada, que tiene una longitud de 30 millones (en el caso de las imágenes RGB o HSV, que tienen tres valores de color cada una). ¿Cuál es el problema de este enfoque? La respuesta se conoce como la “maldición de la dimensionalidad”. Esto significa, entre otras cosas, que el tiempo de entrenamiento crece muy rápido, a menudo de forma exponencial, con la dimensión de los datos de entrada. Para mantener los tiempos de cálculo dentro de los límites, debemos, por lo tanto, reducir primero los datos de entrada a vectores de características cortas. Como se ha descrito anteriormente, esta cartografía se suele crear manualmente.
Puntualización
Sin embargo, para muchas aplicaciones, como la clasificación de objetos en imágenes, es difícil, si no imposible, encontrar manualmente la fórmula de las características. Un antiguo método de reducción automática de dimensiones es el análisis de componentes principales (PCA), que determina las direcciones de mayor varianza (es decir, el componente principal) en el espacio vectorial de los datos de formación y proyecta los datos en el subespacio de los componentes principales mediante una transformación lineal. Debido a la falta de claridad del mapa de compresión, el PCA no es tan potente como los nuevos métodos que se describen a continuación.
Desde aproximadamente 1995 se ha trabajado en el aprendizaje profundo, una clase de algoritmos muy prometedora para resolver este problema, y ahora hay impresionantes éxitos que informar. El aprendizaje profundo incluye métodos como las redes neuronales convolucionales (CNN s), o las redes de creencias profundas y sus variaciones.
Pormenores
Las arquitecturas de las redes neuronales de varias capas con hasta veinte o más capas son en parte muy complejas y no pueden ser explicadas en detalle aquí. Un buen artículo de revisión, y una introducción muy detallada se puede encontrar en deeplearning.stanford.edu. Ahora tratemos de entender los principios más importantes.
El reconocimiento de patrones es simple en espacios de baja dimensión o en caso de clasificación cuando las clases son linealmente separables.
Puntualización
Sin embargo, para las clases que no son linealmente separables en espacios de altas dimensiones, surgen problemas porque aquí el aprendizaje plantea un problema de optimización no lineal.Entre las Líneas En principio, hay soluciones que utilizan algoritmos de descenso de gradiente como la retropropagación. (Tal vez sea de interés más investigación sobre el concepto).
Puntualización
Sin embargo, surgen problemas de convergencia y tiempos de cálculo inaceptablemente altos para los algoritmos clásicos, especialmente cuando se utilizan redes con muchas capas ocultas. Por ello se han buscado otros métodos.
La naturaleza como ejemplo
Todos los enfoques exitosos en el aprendizaje profundo hasta la fecha funcionan con muchas capas de neuronas. La red se divide en dos partes. Después de una capa de preprocesamiento hay varias capas que son pre-entrenadas por el aprendizaje no supervisado (UL). Cada capa de esta red de UL representa características del patrón de entrada. Cuanto más baja es la capa, más simples son las características.Entre las Líneas En el reconocimiento de objetos en fotos, los rasgos de las capas inferiores representan típicamente bordes o líneas en diferentes orientaciones.6 Rasgos complejos como la presencia de una cara pueden formarse en las capas superiores. Esta arquitectura muestra ciertas similitudes con la estructura de los cerebros de los humanos y los animales. Partiendo de los órganos de los sentidos, por ejemplo los ojos, el cerebro está construido en muchas capas, y cuanto más alta es la capa, más abstracta es la información que se encuentra allí.
Puntualización
Sin embargo, todavía se sabe muy poco sobre cómo funcionan las redes neuronales en la naturaleza, lo que lleva a un beneficio significativo en el aprendizaje profundo.
Basado en la experiencia de varios autores, mis opiniones, perspectivas y recomendaciones se expresarán a continuación (o en otros lugares de esta plataforma, respecto a las características en 2026 o antes, y el futuro de esta cuestión):
A la red de UL se adjunta una red clásica de aprendizaje supervisado (SL), que se puede entrenar con retropropagación o RProp .
Una Conclusión
Por lo tanto, el proceso de aprendizaje funciona de la siguiente manera:
- Entrenamiento no supervisado de todos los pesos de las capas de características.
- Entrenamiento supervisado de la red de SL con descenso de gradiente.
El aprendizaje no supervisado de los pesos de las capas de características queda por explicar. Con el aprendizaje de estos pesos, las características serán extraídas. La extracción de características debe tener la propiedad de que los datos de entrada sean mapeados en un espacio dimensional inferior, si es posible sin (demasiada) pérdida de información. (Tal vez sea de interés más investigación sobre el concepto).
Una Conclusión
Por lo tanto, se podría ver la extracción de características como una forma de compresión.
Métodos
Además del autoencoder de denotación apilado, la red neural convolucional juega un papel importante. Para reducir la complejidad y ahorrar tiempo, las capas de características no están completamente conectadas, sino que cada neurona de característica retiene la entrada de sólo unas pocas neuronas en la capa de abajo. Las capas también alternan entre las capas de convolución y las capas de agrupación. (Tal vez sea de interés más investigación sobre el concepto).Entre las Líneas En cada capa de convolución se utiliza un filtro lineal entrenable en las neuronas de entrada, y en la capa de agrupación se calcula una función media, máxima o más compleja a partir de las neuronas de entrada.
También son muy populares las redes de creencias profundas, que utilizan máquinas Boltzmann restringidas para el aprendizaje.
El descubrimiento de características con redes UL puede ser completamente reemplazado por el clustering, en el cual, por cada cluster descubierto, una característica binaria determina si un punto pertenece a ese cluster en particular. También se puede utilizar el núcleo PCA, una generalización no lineal de PCA, para aprender características. Como se ha mencionado anteriormente, la red SL totalmente conectada también puede ser sustituida por otros algoritmos de aprendizaje, por ejemplo por una máquina de vector de apoyo .
Sistemas e implementaciones
Incluso las mejores implementaciones actuales de sistemas de aprendizaje profundo son muy intensivas en computación. (Tal vez sea de interés más investigación sobre el concepto). La causa de los largos tiempos de cálculo es el tamaño de la capa de entrada y el alto número de capas en la red. Este efecto se amplifica aún más si, en el caso de una gran capa de entrada, los datos de formación son elementos de un espacio vectorial de alta dimensión. (Tal vez sea de interés más investigación sobre el concepto). Para representar bien las clases entrenadas se necesitan muchos vectores de datos, lo que hace que el tiempo de cálculo sea aún mayor.
Esto significa que un entrenamiento puede durar desde minutos hasta incluso días.
Otros Elementos
Además, hay que configurar los parámetros del sistema de las redes complejas, lo que a su vez tiene un gran impacto en la calidad de los resultados. Como sabemos por el capítulo 8, los metaparámetros óptimos para un algoritmo de aprendizaje se pueden encontrar con la validación cruzada, es decir, probando todas las combinaciones de valores. Debido a la complejidad de los algoritmos de aprendizaje profundo, hay muchos parámetros, y el conjunto de combinaciones de parámetros crece exponencialmente con el número de parámetros.
Una Conclusión
Por lo tanto, la aplicación ingenua de la validación cruzada no es práctica.Entre las Líneas En su lugar, se utilizan algoritmos que buscan un punto en el espacio de los metaparámetros del sistema que minimice los errores en los datos de validación. (Tal vez sea de interés más investigación sobre el concepto). Ejemplos de esos metaparámetros son el número de capas en la red de UL así como en la red de SL, el número de neuronas en las capas individuales, las tasas de aprendizaje y el grado de interconexión de las redes de CNN.
📬Si este tipo de historias es justo lo que buscas, y quieres recibir actualizaciones y mucho contenido que no creemos encuentres en otro lugar, suscríbete a este substack. Es gratis, y puedes cancelar tu suscripción cuando quieras: Qué piensas de este contenido? Estamos muy interesados en conocer tu opinión sobre este texto, para mejorar nuestras publicaciones. Por favor, comparte tus sugerencias en los comentarios. Revisaremos cada uno, y los tendremos en cuenta para ofrecer una mejor experiencia.Detalles
Los algoritmos para la optimización de los metaparámetros utilizan, por ejemplo, la búsqueda aleatoria o el descenso de gradiente en el espacio de los metaparámetros.
Así pues, para los conjuntos de datos de altas dimensiones, los simples ordenadores personales se ven desbordados. Hoy en día se trabaja con máquinas multiprocesadoras y los algoritmos de aprendizaje se ejecutan de forma muy paralela en tarjetas gráficas modernas, lo que en última instancia lleva a tiempos de entrenamiento de horas a semanas para la formación con la optimización de hiperparámetros.
En https://deeplearning.net/software_links.7 se enumeran 38 sistemas diferentes de software de libre acceso, con un apoyo especial a las tarjetas gráficas, y los sistemas Pylearn2 y Keras, basados en Theano, son especialmente interesantes. Cada uno de ellos está programado en el lenguaje de programación Python. Tensorflow de Google Deep Brain también utiliza Python. El único requisito adicional para que un proyecto tenga éxito es una máquina adecuadamente rápida, que puede ser alquilada a los proveedores de servicios de nube según sea necesario.
Aplicaciones de las redes neuronales
Además de las aplicaciones que se han dado como ejemplos hasta ahora, hay innumerables aplicaciones para las redes neuronales en todas las áreas de la industria, especialmente para el aprendizaje profundo. El reconocimiento de patrones en todas sus formas es un área muy importante, ya sea el análisis de fotos para reconocer personas o rostros, el reconocimiento de enjambres de peces en lecturas de sonar, el reconocimiento y la clasificación de vehículos militares en escaneos de radar, o cualquier otro número de aplicaciones. Las redes neuronales también pueden ser entrenadas para reconocer el lenguaje hablado y el texto escrito a mano.
Las redes neuronales no sólo se utilizan para reconocer objetos y escenas. Pueden ser entrenadas para controlar coches autoconductores o robots basados en datos de sensores, así como para controlar heurísticamente la búsqueda en computadoras de backgammon y ajedrez.
Desde hace bastante tiempo, las redes neuronales, además de los métodos estadísticos, se utilizan con éxito para pronosticar los precios de las acciones y para juzgar la solvencia de los clientes de los bancos. El comercio rápido de las transacciones financieras internacionales sería imposible sin la ayuda de redes neuronales inteligentes y rápidas que decidan autónomamente sobre la compra o la venta.
Otros algoritmos de aprendizaje de máquinas también pueden utilizarse para muchas de estas aplicaciones. Debido al gran éxito comercial de la minería de datos, el aprendizaje de árboles de decisión y las máquinas de vectores de apoyo, existen algoritmos neuronales para muchas aplicaciones, así como otros que no tienen ninguna motivación biológica. El campo de las redes neuronales es un subámbito del aprendizaje por máquina.
Datos verificados por: Chris
▷ Esperamos que haya sido de utilidad. Si conoces a alguien que pueda estar interesado en este tema, por favor comparte con él/ella este contenido. Es la mejor forma de ayudar al Proyecto Lawi.
Con el perceptrón, la regla del delta, la retropropagación y, sobre la base de ellos, el aprendizaje profundo, hemos introducido la clase más importante de redes de avance y mostrado su relación con las puntuaciones y los Bayes ingenuos, y también con el método de los mínimos cuadrados.
Lo más cercano a sus modelos biológicos son las fascinantes redes de Hopfield. Sin embargo, debido a su compleja dinámica, son difíciles de manejar en la práctica.