▷ Sabiduría semanal que puedes leer en pocos minutos. Añade nuestra revista gratuita a tu bandeja de entrada. Lee gratis nuestras revistas de Derecho empresarial, Emprender, Carreras, Liderazgo, Dinero, Startups, Políticas, Ecología, Ciencias sociales, Humanidades, Marketing digital, Ensayos, y Sectores e industrias.

Planificación del Movimiento de los Vehículos Autónomos

▷ Lee Gratis Nuestras Revistas

Planificación del Movimiento de los Vehículos, Coches o Autos Autónomos

Este elemento es una ampliación de los cursos y guías de Lawi. Ofrece hechos, comentarios y análisis sobre la planificación del movimiento de vehículos autónomos. Puede verse también acerca de lo siguiente:

[aioseo_breadcrumbs]

Planificación del Movimiento de los Vehículos, Coches o Autos Autónomos

PLANIFICACIÓN Y CONTROL DEL MOVIMIENTO

Primero revisamos los métodos tradicionales para el control de vehículos y la planificación (véase más en esta plataforma general) del movimiento en vehículos inteligentes. Introducimos brevemente métodos para la autonomía paralela, donde un humano todavía tiene el control del vehículo, y luego nos enfocamos en vehículos autónomos. Al final de esta sección, proporcionamos una visión general de varios desafíos actuales en la toma de decisiones y la planificación, que luego se analizan en detalle en las siguientes secciones.

Dinámica y control de vehículos

A velocidades relativamente bajas, se puede emplear un modelo cinemático del automóvil para el control. Dada una ruta de referencia, el control proporcional-integral-derivado (PID), la linealización por retroalimentación (14) o el control predictivo del modelo se pueden usar para rastrearlo.

Puntualización

Sin embargo, operando a altas velocidades o la realización de maniobras agresivas requiere emplear el modelo dinámico del vehículo, incluidas las fuerzas de neumáticos. El control no lineal (18), el control predictivo del modelo (19) o el control de retroalimentación con retroalimentación (20) estabilizan el comportamiento del vehículo mientras rastrea la ruta especificada. Se ha logrado un buen rendimiento (véase una definición en el diccionario y más detalles, en la plataforma general, sobre rendimientos) de seguimiento con estos modelos y controladores de vehículos, incluso para carreras autónomas.

Estos métodos de control se basan en un modelo del vehículo que necesita ser identificado. Existen técnicas basadas tanto en la optimización como en el aprendizaje para la identificación del sistema (21). La técnica elegida dependerá de la cantidad y el tipo de datos disponibles, el conocimiento sobre la dinámica del sistema y el método de control que se empleará. Dado que las condiciones de la carretera y el vehículo variarán con el tiempo, la identificación del modelo en línea y la identificación del sistema de por vida (22) mejorarán el rendimiento (véase una definición en el diccionario y más detalles, en la plataforma general, sobre rendimientos) de los vehículos autónomos.

Más Información

Las herramientas del aprendizaje automático muestran un gran potencial para crear modelos a partir de las grandes cantidades de datos recopilados.

Autonomía paralela

Hay tres tipos de autonomía colaborativa:

(a) autonomía en serie, en la que el ser humano ordena al vehículo que ejecute una función, que es similar a la mayoría de los enfoques de conducción automática hasta la fecha; (b) autonomía intercalada, en la que el conductor humano y el sistema autónomo se turnan para operar el vehículo; y (c) autonomía paralela (también conocida como control compartido), en la cual el sistema autónomo funciona como un ángel guardián en segundo plano para garantizar la seguridad mientras el conductor humano opera el vehículo.

Ya sea que los conductores estén distraídos o simplemente estén abrumados por la dificultad de conducir en escenarios desafiantes, un marco de autonomía paralelo ofrece seguridad adicional. Se han propuesto muchos enfoques para la autonomía paralela. A continuación, proporcionamos una breve descripción del campo.

La forma más intuitiva de fusionar la entrada humana con la salida de un sistema de seguridad es mediante una combinación lineal de los dos, como lo muestran Anderson et al., quienes propusieron medidas de amenaza basadas en las limitaciones dinámicas del vehículo. Allí, el aporte humano se combinó con una trayectoria computada basada en la gravedad de la amenaza. Por ejemplo, el control compartido podría lograrse mediante retroalimentación háptica.

Una alternativa a la mezcla de entrada es incorporar directamente las entradas humanas en un marco de optimización de manera mínimamente invasiva. El objetivo es minimizar la desviación del plan del sistema autónomo de la intención del conductor.Entre las Líneas En su forma más básica, la intención del conductor está dada por las entradas de dirección y aceleración actuales. Alonso-Mora et al. (2006) emplearon una optimización limitada convexa para calcular entradas seguras para el control compartido.

Puntualización

Sin embargo, el método se limitó a un avance de un solo paso. Una suposición típica para vehículos inteligentes ha sido considerar la velocidad del vehículo como dada y optimizar solo en el ángulo de la dirección, lo que hace que el problema de optimización sea manejable. Por ejemplo, un autor minimizó la diferencia en el ángulo del volante de la entrada de control predicha por el ser humano, que es necesaria para lograr trayectorias seguras. Alternativamente, otro definió la estabilidad del vehículo y las envolventes ambientales para proporcionar comandos de dirección segura en un entorno discretizado, considerando que la velocidad del vehículo es constante y resolviendo una optimización convexa de horizonte de retroceso. Gracias a los avances en los optimizadores rápidos no lineales, ahora es posible optimizar simultáneamente sobre el ángulo de dirección y la velocidad o la entrada del acelerador para lograr una intervención mínima.

Planificación del movimiento de vehículos autónomos

Dos revisiones recientes (29, 30) brindan una visión general clara del estado del arte en la planificación (véase más en esta plataforma general) de movimiento para autos autónomos.Entre las Líneas En resumen, los métodos más tradicionales para calcular trayectorias seguras para vehículos autónomos se basan en una de las tres líneas de pensamiento. El primero es la discretización del espacio de entrada con la verificación de colisiones, como los planificadores de celosía o primitivas alineadas con la carretera, cuya principal ventaja es su simplicidad y eficacia, especialmente en los escenarios de autopistas. La segunda es la planificación (véase más en esta plataforma general) aleatoria, como la exploración rápida de árboles aleatorios (RRT), cuya principal ventaja es la exploración probabilística de grandes espacios estatales, aunque a un alto costo (o coste, como se emplea mayoritariamente en España) (o coste, como se emplea mayoritariamente en España) computacional. El tercero es la optimización restringida y el control del horizonte de retroceso, que se han aplicado principalmente a la ruta que sigue, pero ahora también pueden calcular trayectorias libres de colisiones para evitar otros participantes del tráfico, como muestran Schwarting et al. (28), que formuló un modelo de controlador predictivo no lineal y lo empleó para navegar con seguridad en un vehículo inteligente. Esto ha sido posible gracias a los recientes avances en solucionadores para la optimización restringida no lineal. La principal ventaja de la optimización restringida es la suavidad de las trayectorias y la codificación directa del modelo del vehículo en la planificación (véase más en esta plataforma general) de la trayectoria. Desafortunadamente, si no es convexo, la optimización restringida converge solo a una trayectoria localmente óptima para el vehículo.

Al igual que los automóviles impulsados ​​por humanos, los vehículos autónomos también estarán sujetos a un gran conjunto de reglas. Estas reglas imponen restricciones en el planificador de movimientos, que siempre deben cumplirse.

Puntualización

Sin embargo, bajo algunas circunstancias (por ejemplo, adelantarse a un vehículo estacionado ilegalmente), deben ser violados.Entre las Líneas En este caso, calcular una trayectoria que maximice la visibilidad (37) puede ayudar a reducir el riesgo, pero, en general, surge la cuestión de qué reglas se deben infringir. Si las reglas de tráfico están codificadas en la función de costo, se pueden emplear métodos de planificación (véase más en esta plataforma general) de movimiento tradicionales para encontrar el camino o la trayectoria del costo (o coste, como se emplea mayoritariamente en España) (o coste, como se emplea mayoritariamente en España) más bajo. Por ejemplo, Kuwata et al. (38) calculó un mapa de costos (o costes, como se emplea mayoritariamente en España) del espacio manejable del automóvil y empleó el método RRT para encontrar la ruta con el costo (o coste, como se emplea mayoritariamente en España) (o coste, como se emplea mayoritariamente en España) más bajo. Una alternativa es especificar las reglas como funciones lógicas y utilizar la síntesis de control automático. Para un modelo discreto de un sistema robótico y para alcanzar un estado objetivo, Tumova et al. (39) describió un método para sintetizar el movimiento que viola solo las reglas de prioridad más baja por el menor tiempo posible. Aunque prometedores, los desafíos de la síntesis de control automático todavía incluyen su aplicación a sistemas y entornos no deterministas, así como a modelos dinámicos continuos, como es el caso de los vehículos autónomos. Del mismo modo, vasile et al. (40) consideró el problema de la infracción de restricción mínima en el contexto de la planificación (véase más en esta plataforma general) y enrutamiento de movimiento integrado en una red de carreteras. Utilizaron fórmulas de lógica temporal lineal (scLTL) sintácticamente co-seguras para especificar el comportamiento deseado del vehículo y emplearon un planificador de movimiento basado en RRT * para obtener una trayectoria de violación mínima demostrable para un escenario de un solo vehículo y un solo viaje. El enrutamiento de mínima infracción en los contextos de gestión de flotas y uso compartido de vehículos sigue siendo un problema abierto, que debe abordarse para proporcionar un transporte eficiente con retrasos mínimos.Entre las Líneas En la Sección 6, analizamos el problema de la gestión de la flota y el uso compartido de viajes con más detalle.

La mayoría de los métodos en esta sección consideran una predicción sobre las trayectorias futuras de otros participantes del tráfico que se conocerán.

Puntualización

Sin embargo, los escenarios de tráfico real incluyen interacciones complejas entre varios usuarios de la carretera. Es necesario manejar (gestionar) el desorden (trastorno) complejo y modelar las interacciones con otros usuarios de la carretera, y esto sigue siendo un problema no resuelto para la conducción autónoma.Entre las Líneas Más adelante analizamos este desafío con más detalle. Pero primero, en la siguiente sección proporcionamos una visión general del estado del arte en la percepción y la planificación (véase más en esta plataforma general) de extremo a extremo, que se basa en el aprendizaje automático. Finalmente, se requiere la verificación de la corrección y seguridad de los métodos de planificación (véase más en esta plataforma general) de movimiento para lograr una amplia aplicabilidad. Discutimos este desafío con más detalle más adelante.

PERCEPCIÓN INTEGRADA Y PLANIFICACIÓN

Si bien los métodos descritos en la sección anterior resumen la percepción fuera de la planificación, la percepción es de suma importancia para los vehículos autónomos.Entre las Líneas En esta sección, proporcionamos una breve descripción del estado del arte en la percepción. (Tal vez sea de interés más investigación sobre el concepto). A esto le sigue una descripción de los métodos de extremo a extremo para la percepción y planificación (véase más en esta plataforma general) integradas, que generan una entrada de control para el vehículo directamente a partir de la información sensorial y, por lo general, se basan en el aprendizaje automático.

De la percepción clásica a los desafíos actuales en los sistemas de percepción basados ​​en redes neuronales

Una encuesta reciente (41) incluye información histórica y actual del estado del arte sobre varios temas específicos, incluyendo reconocimiento, reconstrucción, estimación de movimiento, seguimiento, comprensión de la escena y aprendizaje de extremo a extremo en varios conjuntos de datos de evaluación comparativa, incluidos los conjuntos de datos KITTI (42), ISPRS (Sociedad Internacional de Fotogrametría y Teledetección), MOT (Seguimiento de Objetos Múltiples) y Paisajes Urbanos (43).

Los sistemas de percepción clásica extraen información en forma de características diseñadas manualmente a partir de datos sensoriales en bruto. Los ejemplos más notables son SIFT (Transformación de la característica invariante de escala), BRISK (Puntos clave escalables invariantes robustos binarios) (46), SURF (Características robustas aceleradas de velocidad) y ORB (Orientado RÁPIDO y BREVE Rotado) (49, 50). Los enfoques basados ​​en generadores de características diseñados a mano están limitados por la adaptabilidad a los entornos genéricos. Al rastrear estas características, uno puede localizar, estimar la odometría y mapear el ambiente de manera simultánea [localización y mapeo simultáneos (SLAM)], que se ha hecho popular en la comunidad robótica. Mientras que los líderes actuales en el KITTI Visual Odometry benchmark se basan en lidar o una combinación de visión y lidar (51), los enfoques rápidos y ligeros se basan puramente en la visión, como ORB-SLAM2 (50), SVO (Semidirect Visual Odometry) 2.0 (52) y LSD-SLAM (SLAM monocular directo a gran escala) (53), han madurado para poder competir.

Detalles

Los altos costos (o costes, como se emplea mayoritariamente en España) de los sensores lidar son un fuerte impulsor para la investigación y el desarrollo comercial y académico en la percepción basada en la visión. (Tal vez sea de interés más investigación sobre el concepto). Si bien esto puede cambiar debido al desarrollo y la disponibilidad de lidar de estado sólido, radar de alta resolución u otros sensores de profundidad baratos, es muy probable que una combinación de sensores múltiples con capacidades superpuestas persista para lograr redundancia y mayor seguridad.

Si bien puede parecer deseable mapear el mundo en su mejor detalle para facilitar la localización y planificación (véase más en esta plataforma general) en un mapa predefinido, incluidas las anotaciones de píxeles perfectos de las marcas de carril y las señales de tráfico, esto tiene varias desventajas importantes. Puede que no sea posible actualizar los mapas para reflejar los cambios en el entorno lo suficientemente rápido. Los mapas altamente detallados son costosos de crear, mantener y transferir, ya que las actualizaciones deben ser alimentadas y distribuidas constantemente por el sistema.

Una Conclusión

Por lo tanto, parece ventajoso mantener solo un mapa de luz que contenga información condensada y semántica; toda otra información, como la posición dentro de un carril, semáforos y señales, automóviles y detecciones de peatones, debe realizarse sobre la marcha.

Referimos al lector a un artículo de Bar Hillel et al. para una encuesta sobre detección de carreteras y carriles. Las detecciones de objetos se realizan normalmente mediante una detección de cuadro de límite, maximizando la probabilidad de detectar un objeto dentro del cuadro, o por segmentación semántica, clasificando cada píxel en el espacio de la imagen. Para ambas tareas, las arquitecturas de redes neuronales profundas se han vuelto predominantemente exitosas. El estado actual de la técnica para el reconocimiento de objetos se puede encontrar en los puntos de referencia correspondientes, como el desafío de reconocimiento visual a gran escala de ImageNet (55).Entre las Líneas En general, existen sistemas con capacidad en tiempo real como Faster R-CNN (Red neuronal convolucional regional más rápida) (56).

Por el contrario, la segmentación semántica precisa en imágenes de alta resolución en tiempo real plantea un desafío mayor.

Pormenores

Las arquitecturas de red de decodificador-codificador de vanguardia, como ResNet38 (57) y PSPNet (Pyramid Scene Parsing Network) (58), logran más del 80% mIoU (intersección media sobre unión) en el conjunto de datos de Cityscapes (43) pero tome varios segundos para propagarse en imágenes de alta resolución, ya que requieren una gran cantidad de operaciones de punto flotante. Más recientemente, ENet (Efficient Neural Network) (59) logró un tiempo de ejecución de 13 ms en imágenes de 1.024 × 2.048 píxeles con un 58% mIoU en el conjunto de datos de Cityscapes (43), mientras que ICNet (Image Cascade Network) (60) logró un 70% de mIoU a 33 ms. ICNet incorpora ramas de resolución múltiple bajo la guía de etiquetas adecuada para combinar capas de baja resolución (de las cuales aprende la representación y extrae la mayor parte de la información semántica) y capas de resolución más alta al mismo tiempo que conserva los detalles.

Las arquitecturas de redes neuronales profundas se basan en grandes cantidades de datos para generalizarse lo suficiente como para nuevos entornos y lograr una reducción de varianza suficiente. Los conjuntos de datos del mundo real etiquetados de forma costosa y manual, como el conjunto de datos de Paisajes urbanos (43) para evaluar la comprensión de la escena urbana semántica, pueden contener solo una cantidad limitada de datos.

Informaciones

Los datos artificiales de la simulación, como el conjunto de datos SYNTHIA (61), que contiene imágenes para la segmentación semántica de escenas urbanas, intentan superar esta limitación. (Tal vez sea de interés más investigación sobre el concepto). Johnson-Roberson et al. (62) ofreció una discusión sobre si los mundos virtuales pueden reemplazar las anotaciones generadas por humanos para tareas del mundo real. Compararon el entrenamiento en un conjunto de datos artificiales de 200,000 imágenes generadas a partir de la simulación, basadas en el juego de computadoraGrand Theft Auto V, con capacitación en el conjunto de datos de Cityscapes y evaluó las redes resultantes en el conjunto de datos de KITTI (42) para la detección de vehículos. La red entrenada solo en imágenes simuladas de autos superó significativamente a la entrenada en imágenes reales (Paisajes urbanos) en etiquetas de todas las dificultades. Del mismo modo, pero para la segmentación semántica, Richter et al. (63) creó un conjunto de datos de Grand Theft Auto V. Los experimentos con conjuntos de datos de segmentación semántica muestran que el uso de los datos adquiridos para complementar las imágenes del mundo real aumenta significativamente la precisión y que los datos adquiridos pueden reducir la cantidad de datos del mundo real etiquetados a mano: modelos entrenados con datos del juego y solo 1/3 del conjunto de entrenamiento del mundo real superó a los modelos entrenados en el conjunto completo de entrenamiento del mundo real.

Aviso

No obstante, ambos enfoques resultan en un mayor sesgo de conjuntos de datos, que también se puede encontrar en conjuntos de datos del mundo real (64).

Un gran problema de los sistemas de percepción basados ​​en redes neuronales es la retroalimentación insuficiente de la incertidumbre. El aprendizaje profundo bayesiano forma la intersección entre el aprendizaje profundo y la teoría de la probabilidad bayesiana, ofreciendo estimaciones de incertidumbre basadas en principios dentro de arquitecturas profundas. La incertidumbre del modelo de la red puede estimarse con el muestreo (véase más detalles) de deserción de Monte Carlo (65), propagando las entradas dadas a través de la red varias veces con diferentes ponderaciones de deserción. (Tal vez sea de interés más investigación sobre el concepto). La evaluación de las estadísticas resultantes da una estimación de la incertidumbre del modelo. Según lo sugerido por McAllister et al. (66), la estimación y propagación de la incertidumbre de cada componente a lo largo de toda la tubería del sistema utilizando un marco bayesiano de principios permitiría al vehículo autónomo hacer frente adecuadamente a la alta incertidumbre.

Las salidas de estos componentes de percepción de bajo nivel generalmente son procesadas por un componente de fusión para generar una representación del entorno del vehículo (13). Este modelo de entorno es utilizado por un componente adicional para planificar y controlar el comportamiento del vehículo.Entre las Líneas En la siguiente sección, investigamos cómo la fusión de la percepción y la planificación (véase más en esta plataforma general) puede lograr un acoplamiento más cercano de la información sensorial y la actuación.

Planificación de extremo a extremo

En los marcos de conducción autónomos convencionales (13), las funcionalidades se encapsulan con interfaces claras observables entre los módulos. Esto también puede denominarse percepción mediada (67), donde los objetos de interés se detectan y fusionan en una descripción de la escena y luego se calculan los comandos de conducción.

La planificación (véase más en esta plataforma general) de movimiento de extremo a extremo también se ha aplicado a la robótica, por ejemplo, para aprender una política de navegación en simulación de un operador experto, con un buscador de rango láser 2-D y una posición de objetivo relativa como entradas (78). Entonces es factible transferir el conocimiento obtenido de la capacitación a entornos invisibles del mundo real para realizar una navegación orientada a los objetivos y evitar colisiones. La prevención de colisiones con conciencia social y el aprendizaje por refuerzo profundo se introdujeron para explicar e inducir conductas con conciencia social capaces de aprender directamente de escenarios multiagentes mediante el desarrollo de una estructura de red neuronal simétrica (79).

Los robots que utilizan modelos de percepción aprendidos en el mundo real deben poder manejar (gestionar) de manera segura los casos en que se ven obligados a tomar decisiones en escenarios que no se parecen a ninguno de sus ejemplos de entrenamiento. Es posible que los métodos de abandono de conjunto, de arranque y de Monte Carlo recientes para cuantificar la incertidumbre de la red neuronal (redes neuronales bayesianas) no puedan proporcionar de manera eficiente estimaciones de incertidumbre precisas cuando se las consulta con entradas que son muy diferentes de sus datos de entrenamiento.

Una Conclusión

Por lo tanto, un autocodificador puede ser entrenado para reconocer cuándo detectar novedades en los datos de entrada (80) y revertir desde un enfoque de extremo a extremo a un comportamiento seguro no basado en el aprendizaje, como la ejecución de primitivas de movimiento convencionales.

Otra línea de investigación aprende el comportamiento de conducción en la simulación, lo que lo hace adecuado para el aprendizaje por refuerzo, ya que es posible observar casos de fallas durante el aprendizaje en un entorno seguro. Los enfoques presentados anteriormente solo heredan el comportamiento de conducción normal, lo que puede indicar que no pueden funcionar bien en casos poco frecuentes, como accidentes.Entre las Líneas En el mejor de los casos, el aprendizaje por refuerzo puede buscar activamente estos casos difíciles durante la exploración. (Tal vez sea de interés más investigación sobre el concepto).

Otros Elementos

Además, la información de la percepción de la verdad básica está disponible en la simulación, lo que facilita la definición y el cálculo de una función de recompensa. Wolf et al. (81) presentó un enfoque para aprender a conducir un vehículo en un entorno de simulación utilizando una Deep Q-Network.

Aviso

No obstante, el espacio de acción es discreto y solo permite ajustes gruesos en el volante. Encontraron que, cuando se realiza una evaluación comparativa de la distancia desde el centro del carril, se puede aumentar el rendimiento (véase una definición en el diccionario y más detalles, en la plataforma general, sobre rendimientos) general agregando otros términos, como la desviación del ángulo del vehículo con respecto a la línea central. La brecha entre la simulación y los datos del mundo real podría cerrarse (82) al segmentar primero la imagen virtual desde el simulador con una red de segmentación y luego traducirla a una imagen de aspecto realista que emplea una red generativa. La red generativa está capacitada para crear imágenes de segmentaciones aparentemente reales. Para operar en espacios de acción continua, Lillicrap et al. (83) propuso un algoritmo de actor-crítico y sin modelo que se basa en el gradiente de política determinista y se basa en un aprendizaje de refuerzo profundo. El algoritmo es capaz de aprender una política para permanecer en la pista en un entorno simulado de conducción de automóviles.

Planificación de movimientos con conciencia de comportamiento

La mayoría de los métodos señalados en esta plataforma digital esperan una predicción sobre las trayectorias futuras de otros participantes del tráfico para evitar colisiones, pero los escenarios de tráfico reales implican interacciones complejas entre varios usuarios de la carretera. Es necesario manejar (gestionar) el desorden (trastorno) complejo y las interacciones de modelado con otros usuarios de la carretera para brindar seguridad.Entre las Líneas En esta sección, investigamos este desafío abierto.

En el Desafío urbano DARPA, se propusieron múltiples soluciones para la planificación (véase más en esta plataforma general) táctica, aunque se adaptaron específicamente a las necesidades del desafío. La mayoría de los enfoques (por ejemplo, 10, 11, 84) utilizan una máquina de estados para cambiar entre comportamientos predefinidos. Estos enfoques basados ​​en reglas carecen de la capacidad de generalizar situaciones desconocidas y lidiar con incertidumbres.

La conducción automatizada con un comportamiento de conducción similar al humano requiere una toma de decisiones interactiva y cooperativa.

Más Información

Las intenciones de otros automovilistas deben deducirse e integrarse en un marco de planificación (véase más en esta plataforma general) que permita una toma de decisiones cooperativa razonable sin la necesidad de una comunicación entre vehículos. Si bien los vehículos autónomos deben poder deducir las intenciones de otros participantes en el tráfico de personas, también deben permitir a otros inferir razonablemente la intención del vehículo autónomo. Esto resulta en interdependencias e interacciones basadas en el comportamiento visto y mostrado sin la necesidad de una comunicación explícita.

Primero presentamos el trabajo en el área de la planificación (véase más en esta plataforma general) del comportamiento cooperativo y socialmente compatible y luego lo expandimos en una sección posterior a una planificación (véase más en esta plataforma general) interactiva más general, que incluye interactividad con otros agentes y el medio ambiente mediante el modelado o la reducción activa de la incertidumbre debida a oclusiones e información incompleta del sensor.. Luego discutimos los enfoques basados ​​en el aprendizaje.

Cooperación e interacción

La conducción socialmente compatible, incluida la cooperación y la interactividad, no solo son importantes para crear un comportamiento congruente entre los conductores humanos reales, sino que también son vitales para una navegación segura en entornos confusos, dinámicos y desordenados. Dado que las acciones de un agente son interdependientes de todas las acciones de otros agentes, surge una explosión de incertidumbre en los estados futuros y da como resultado el problema del robot de congelación discutido en la comunidad robótica. El robot se detiene completamente porque todas las acciones posibles se vuelven inaceptablemente inseguras. Si el robot no se detiene por completo, elegirá seguir caminos altamente evasivos o arbitrarios a través de la multitud, que a menudo no solo son subóptimos sino también potencialmente peligrosos.

Ahora hay esencialmente tres formas de abordar el problema de la explosión de la incertidumbre:

▪ Encuentre una mejor descripción de la dinámica del entorno, incluidos los obstáculos dinámicos, como en el control del horizonte de retroceso (86) parcialmente en bucle cerrado, al modelar la información futura anticipada para reducir la incertidumbre que se asocia con los estados de creencias futuros. Sin embargo, incluso bajo la perfecta predicción individual y el perfecto conocimiento de las trayectorias de todos los agentes, el problema del robot de congelación no siempre se puede prevenir (85).

▪ Modelo de cooperación basado en una formulación condicional que modela cómo reaccionan los agentes a las acciones del robot (como en 87). Un problema es que modelar las reacciones al comportamiento del robot de forma indirecta asume la capacidad de controlar por completo a todos los demás agentes. De manera intuitiva, asumir un control total sobre todos los agentes puede conducir a un comportamiento agresivo y potencialmente peligroso debido a un exceso de confianza en el modelo de comportamiento.

▪ Modelo de la cooperación a través de distribuciones conjuntas, es decir, modelando esencialmente el robot como uno de los otros agentes. Algunos ejemplos son las distribuciones de probabilidad conjuntas (85) y las distribuciones de costos (o costes, como se emplea mayoritariamente en España) conjuntas (88).

El comportamiento de un agente puede definirse como cooperativo si la utilidad conjunta se incrementa a sabiendas y voluntariamente en comparación con una utilidad de referencia (89). Para fines de comparabilidad, consideramos enfoques que, de alguna forma, aumentan la utilidad conjunta al incorporar los objetivos de otros agentes como cooperativos.Entre las Líneas En este contexto, la planificación (véase más en esta plataforma general) cooperativa de movimientos también se puede referir como un objetivo para una planificación (véase más en esta plataforma general) de movimientos socialmente compatible. Una encuesta de planificación (véase más en esta plataforma general) cooperativa (90) distingue el comportamiento de conducción cooperativo en las dos dimensiones de comunicación y cooperación entre vehículos en el sentido de colaboración. (Tal vez sea de interés más investigación sobre el concepto).Entre las Líneas En esta revisión, nos centramos en los enfoques que no dependen de la comunicación con otros vehículos o infraestructura.

Enfoques de la teoría de juegos

Es un patrón común modelar el comportamiento de otros vehículos como maximización de la utilidad esperada, es decir, se espera que un agente ejecute los controles más beneficiosos (87).

Una Conclusión

Por lo tanto, una función de recompensa o utilidad debe ser conocida o aprendida. Esto se puede hacer de manera similar para los enfoques probabilísticos, donde, en lugar de optimizar el costo (o coste, como se emplea mayoritariamente en España) (o coste, como se emplea mayoritariamente en España) más bajo, se espera que los controles del vehículo sigan la regla de máxima o máxima probabilidad a posteriori.

Pormenores

Las acciones normalmente se implementan y se califican en un horizonte de tiempo fijo, lo que da como resultado un planificador de horizonte de retroceso.

Otra distinción entre los enfoques es si esta optimización se realiza para un costo (o coste, como se emplea mayoritariamente en España) (o coste, como se emplea mayoritariamente en España) o distribución conjunta o en un juego para dos jugadores, donde el vehículo autónomo primero calcula una acción y luego modela el otro vehículo para que reaccione de manera que maximice su propia recompensa esperada. El comportamiento emergente puede ser altamente interactivo en lugar de reactivo, porque el vehículo autónomo se optimizará para maximizar su propia recompensa, que depende de las acciones del otro vehículo. El último proceso da como resultado un supuesto de control indirecto sobre el otro vehículo.

Si bien modelar las interacciones es un problema intrigante en sí mismo, lidiar con el aumento de la complejidad es otro desafío. Dado que todas las acciones de los agentes se ven afectadas e igualmente afectan las acciones de otros agentes, el número de interacciones (y, por lo tanto, la complejidad de la planificación) crece exponencialmente con el número de agentes. El enfoque más simple es discretizar el espacio de acción mediante primitivas de movimiento y buscar exhaustivamente todas las opciones posibles (89). Naturalmente, existen métodos más eficientes para explorar el espacio de optimización. (Tal vez sea de interés más investigación sobre el concepto).Entre las Líneas En el caso determinista, uno puede cubrir el proceso de toma de decisiones, a menudo expresado en un contexto de teoría de juegos (91), en una estructura de tipo árbol y aplique una búsqueda sobre el árbol. El árbol, generalmente discretizado por el tiempo de acción, consiste en acciones discretas que cada agente puede elegir ejecutar en cada etapa del árbol. Dado que la recompensa de cada agente depende no solo de su propia recompensa y acciones, sino también de las acciones de todos los demás agentes en las etapas anteriores, el árbol crece exponencialmente con el número de agentes. Para lograr una optimización más rápida para una solución óptima (o aproximadamente óptima), se pueden aplicar otros algoritmos de búsqueda de árbol, como la búsqueda de árbol de Monte Carlo (92). Para reducir la complejidad computacional, Schwarting y Pascheka (93) asumieron que las acciones de los siguientes vehículos están dominadas por sus predecesores y utilizaron este supuesto para formular un algoritmo de resolución de conflictos recursivo para lograr solo una complejidad cuadrática en el número de agentes.

Li et al. (94) modeló la toma de decisiones en la conducción autónoma como un juego de Stackelberg. El vehículo autónomo, el líder, elige sus acciones para maximizar su utilidad para las acciones en el peor de los casos que los siguientes vehículos pueden elegir. Todos los demás vehículos actúan de manera similar en una cadena líder-seguidor.

Una Conclusión

Por lo tanto, no todas las acciones de los vehículos son interdependientes con las acciones de todos los demás vehículos, y la complejidad crece solo linealmente con el número de agentes, en comparación con los árboles de decisión. (Tal vez sea de interés más investigación sobre el concepto). El enfoque muestra la viabilidad de resolver el juego de toma de decisiones incluso para más de 30 vehículos en tiempo real.

Aviso

No obstante, en una comparación de Stackelberg y los árboles de decisión para la toma de decisiones, los árboles de decisión superaron el enfoque de Stackelberg tanto en velocidad media como en número de violaciones de restricciones.

Enfoques probabilísticos

En un escenario de entrada a una autopista que involucra un vehículo autónomo que se fusiona con el tráfico en movimiento, Wei et al. (95) planificó que dos vehículos ejecuten un conjunto de posibles políticas de alto nivel en un proceso de decisión de Markov. La búsqueda de la mejor política se realiza simulando hacia adelante para encontrar el escenario de tráfico más probable y luego ejecutando la política correspondiente del conjunto de políticas disponibles para el vehículo del ego. Cada política luego se califica contra la función de costo (o coste, como se emplea mayoritariamente en España) (o coste, como se emplea mayoritariamente en España) del vehículo del ego, y se ejecuta la mejor política.

Detalles

Los autores asociaron el comportamiento social con un modelo de Bayes simple: es más probable que otros vehículos rindan si se desaceleran y rinden menos si se aceleran. No se emplea ningún modelo basado en la recompensa recíproca.

Las trayectorias también se pueden muestrear en una variedad discretizada (96), similar al trabajo de Werling et al. (33), y la reacción del entorno se puede implementar de acuerdo con el modelo de controlador inteligente. Como un modelo de seguimiento de automóviles continuo en el tiempo para la simulación de la autopista y el tráfico urbano, el modelo de conductor inteligente describe la dinámica de las posiciones y velocidades longitudinales de vehículos individuales en un flujo de tráfico a nivel micro. El enfoque incorpora el comportamiento cooperativo al incluir los esfuerzos de otros vehículos (aceleración) en una función de costo (o coste, como se emplea mayoritariamente en España) (o coste, como se emplea mayoritariamente en España) conjunta y, por lo tanto, logra un cierto nivel de cooperación. (Tal vez sea de interés más investigación sobre el concepto). Se impone una restricción adicional en la aceleración máxima de los otros vehículos. Hoermann et al. (97) usó un filtro de partículas para estimar los parámetros de comportamiento del modelo de controlador inteligente, correspondientes a la aceleración máxima, la aceleración deseada, la velocidad deseada, la distancia mínima y el intervalo de tiempo deseado. La densidad posterior resultante se utiliza para propagar probabilísticamente el estado actual para recibir predicciones probabilísticas a largo plazo (véase más detalles en esta plataforma general) para vehículos autónomos en una dirección longitudinal.

▷ Lo último (en 2026)
▷ Si te gustó este texto o correo, considera compartirlo con tus amigos. Si te lo reenviaron por correo, considera suscribirte a nuestras publicaciones por email de Derecho empresarialEmprenderDineroMarketing digital y SEO, Ensayos, PolíticasEcologíaCarrerasLiderazgoInversiones y startups, Ciencias socialesDerecho globalHumanidades, Startups, y Sectores económicos, para recibir ediciones futuras.

Dong et al. (98) utilizaron un modelo gráfico probabilístico para describir la dependencia entre los datos observados y estimar las intenciones de otros autos. La tarea del modelo gráfico probabilístico es generar una estimación de intención con probabilidad máxima, dada la información observada.

En los procesos gaussianos interactivos (85), la trayectoria de cada agente se modela a través de un proceso gaussiano. Los procesos gaussianos individuales se acoplan a través de un potencial de interacción que modela la cooperación entre las diferentes trayectorias de los agentes. Los términos de pago, progreso y penalización de distancias cercanas a otros agentes también pueden incluirse en su función de costo (o coste, como se emplea mayoritariamente en España) (o coste, como se emplea mayoritariamente en España) conjunto (88).

Procesos de decisión de Markov parcialmente observables

En el caso probabilístico, el problema se formula a menudo como un proceso de decisión de Markov parcialmente observable (POMDP), donde las intenciones y los procedimientos de replanificación de los otros agentes no son directamente observables y están codificados en variables ocultas. Las publicaciones en la comunidad POMDP normalmente se centran en la resolución de modelos POMDP fuera de línea.Entre las Líneas En este contexto, fuera de línea significa que el enfoque es típicamente calcular la mejor acción posible no para el estado de creencia actual, sino para cada estado de creencia imaginable.

Una Conclusión

Por lo tanto, proporcionan una política, antes de la ejecución, de la mejor acción para ejecutar en cualquier situación posible. Los problemas de POMDP están completos para PSPACE y, por lo tanto, son intratables computacionalmente para grandes espacios de estado. Incluso para problemas de POMDP relativamente pequeños, se tarda varios minutos a horas en calcular las soluciones sin conexión aproximadas.

Pormenores

Por el contrario, para la toma de decisiones en entornos de tráfico, las decisiones deben actualizarse con frecuencia (por ejemplo, cada 100 ms). Dado que resolver el POMDP más general es intratable en aplicaciones en tiempo real, se emplean soluciones de POMDP aproximadas a formulaciones de problemas simplificadas para evitar la complejidad de calcular una política sofisticada a largo plazo.

También se puede emplear un POMDP con las intenciones del otro vehículo como variables ocultas (99). El método propuesto simplifica el problema significativamente al planear los movimientos de todos los vehículos en caminos preplanificados, reduciendo la dimensionalidad del espacio de estado del problema dado. La formulación de POMDP incorpora fácilmente compensaciones entre la exploración (el proceso de recopilación de información) y la explotación (el progreso hacia una meta o recompensa).

Aviso

No obstante, el modelo de interacción consiste simplemente en una acción de frenado constante que se activa si el tiempo de colisión cae por debajo de un umbral. Un POMDP que integra el contexto de la carretera y la intención de movimiento de otro vehículo en un escenario de una carretera urbana fue resuelto por Liu et al. (100). Se define un comportamiento de vehículo de referencia correspondiente al contexto de la carretera, y la reacción del otro vehículo se deduce al observar la desviación del comportamiento de referencia. Una discretización de las intenciones del otro vehículo (es decir, una variable oculta) permite al enfoque inferir las intenciones de otros vehículos, como ceder o actuar de manera agresiva.

También es posible planificar, sin interacciones, sobre regiones de interés específicas (101) en lugar de todo el conjunto de otros vehículos y solo para el estado de creencia actual. Esto se hace normalmente mediante una búsqueda anticipada en el espacio del estado de creencia para explorar solo los estados de creencia que son accesibles desde el estado en este momento.

A menudo, se puede incorporar una gran cantidad de conocimiento de dominio en el proceso de selección de acciones para simplificar la toma de decisiones; Los horizontes de planificación (véase más en esta plataforma general) son relativamente cortos, ya que las predicciones son precisas durante menos de 10 s. Tanto en carretera como en ciudad, el número de acciones distintas, aunque pueden variar durante la ejecución, sigue siendo relativamente pequeño. Sólo se necesita una precisión de planificación (véase más en esta plataforma general) limitada en el futuro lejano. La planificación (véase más en esta plataforma general) en abstracciones en lugar de trayectorias detalladas puede reducir significativamente la complejidad de la planificación. (Tal vez sea de interés más investigación sobre el concepto). Ulbrich y Maurer (101) aplicaron una evaluación de políticas basada en árboles que incorporó el conocimiento de dominio descrito anteriormente. La configuración del problema de la creciente complejidad es, de nuevo, similar a la configuración determinista. Asimismo, Galceran et al. (102) sugirió un solucionador de POMDP personalizado que propague hacia adelante múltiples políticas definidas a mano, incluidos los hiper-parámetros, y calcula la retroalimentación determinista en bucle cerrado sobre las políticas del vehículo autónomo. La principal aproximación es reducir la decisión a un conjunto limitado de políticas y realizar evaluaciones con un único conjunto de asignaciones de políticas para cada muestra. Alternativamente, algún autor propuso un método en tiempo real para la estimación conjunta del comportamiento multipolítico y la planificación (véase más en esta plataforma general) de la trayectoria del horizonte de retroceso en entornos urbanos.

Basado en la experiencia de varios autores, mis opiniones, perspectivas y recomendaciones se expresarán a continuación (o en otros lugares de esta plataforma, respecto a las características en 2026 o antes, y el futuro de esta cuestión):

Detalles

Los autores emplearon un POMDP acoplado para estimar la trayectoria futura de los participantes del tráfico que interactúan y un planificador MPC no lineal con limitaciones de oportunidad (extensión de la Referencia 28) para calcular trayectorias seguras.

Encontrar una representación simbólica adecuada para el POMDP es difícil, ya que depende en gran medida de la tarea y la situación específica. El enfoque habitual es utilizar una discretización equidistante del espacio continuo. Por un lado, tal discretización es a menudo demasiado aproximada y no puede representar suficientes detalles para encontrar una solución al problema.

Otros Elementos

Por otro lado, codifica la información de forma redundante donde no se necesita alta precisión. (Tal vez sea de interés más investigación sobre el concepto) (examine más sobre estas cuestiones en la presente plataforma online de ciencias sociales y humanidades). Brechtel et al. (103) presentó un POMDP continuo con un enfoque en el equilibrio entre exploración y explotación en el escenario de oclusiones y percepción incompleta. El POMDP continuo se resuelve mediante el aprendizaje incremental de una representación eficiente del espacio durante la iteración del valor. Al razonar sobre objetos potencialmente ocultos y la incertidumbre de observación, también consideran las interacciones de los usuarios de la carretera.

Un enfoque diferente, en lugar de resolver el POMDP de una manera convencional o por conocimiento de dominio y simplificaciones específicas, es emplear el aprendizaje de refuerzo no paramétrico (como en 104), para recibir de inmediato una política aproximadamente óptima sin optimización. (Tal vez sea de interés más investigación sobre el concepto).

Sin embargo, la generalización a entornos arbitrarios sigue siendo un desafío.

Enfoques basados ​​en el aprendizaje

En las secciones anteriores, nos hemos centrado en los marcos y modelos para las interacciones entre los vehículos impulsados ​​por el hombre. Ahora pasamos a los enfoques basados ​​en datos. Excluimos los enfoques relacionados con la conducción de extremo a extremo, que ya se presentaron en la Sección 3.2, y continuamos enfocándonos en la planificación (véase más en esta plataforma general) del movimiento consciente del comportamiento.

Los enfoques típicos disocian la toma de decisiones y la planificación. (Tal vez sea de interés más investigación sobre el concepto). Por ejemplo, Vallon et al. (105) entrenó una máquina de vectores de soporte para la toma de decisiones de cambio de carril con características compuestas de posición relativa y velocidad relativa. Si se desencadena un deseo de cambio de carril, un controlador predictivo modelo ejecuta una trayectoria de referencia de cambio de carril con el objetivo de una desviación mínima a la referencia sujeto a un conjunto de restricciones de seguridad.

Los modelos de mezcla gaussianos parametrizados por redes neuronales con características basadas en los estados del vehículo del ego y los vehículos circundantes, las acciones pasadas y las especificaciones, y la geometría de la carretera, fueron entrenados en Lenz et al. (106) para predecir el movimiento de un grupo de vehículos en un entorno de carretera. Las capas totalmente conectadas pudieron superar las redes neuronales recurrentes, así como otros modelos clásicos capaces, como el modelo de controlador inteligente.

Una alternativa es emplear una arquitectura de predicción no paramétrica (107). Un módulo de generación de muestras que consta de un autocodificador variacional condicional fue capaz de aprender un modelo de muestreo (véase más detalles) que, dadas las observaciones de trayectorias pasadas, produce un conjunto diverso de hipótesis de predicción para capturar la multimodalidad del espacio de futuros plausibles. Un módulo de clasificación basado en el control óptimo inverso determina la hipótesis más probable al incorporar el contexto de la escena y las interacciones. Curiosamente, este trabajo muestra similitudes con la hipótesis de muestreo (véase más detalles) y la subsiguiente puntuación y refinamiento utilizados por los solucionadores numéricos de POMDP.

El aprendizaje por refuerzo inverso (IRL) es un marco prominente.Entre las Líneas En la literatura, IRL también se conoce como control óptimo inverso.Entre las Líneas En todos estos casos, una función de recompensa desconocida se aprende de demostraciones de expertos.

Como se mencionó anteriormente, las interacciones se pueden modelar mediante el control indirecto sobre el otro vehículo (87), a la manera de un sistema subestimado. El método propuesto aprende la función de recompensa a través de IRL basado en características de demostraciones de expertos. Las características diseñadas manualmente (es decir, términos de costo) incorporan los objetivos de mantenerse dentro de los carriles, evitar colisiones, medir el progreso y controlar los costos (o costes, como se emplea mayoritariamente en España) de esfuerzo. Los comportamientos de otros vehículos se derivan de un juego para dos jugadores donde el otro vehículo maximiza su propia recompensa en respuesta a una trayectoria de control dada del vehículo autónomo. Como tal, se asume que el conductor humano actúa egoístamente. Este enfoque es capaz de aprovechar los efectos del comportamiento del vehículo autónomo en las acciones humanas. El comportamiento emergente incluye cambios inducidos en los carriles y cambios en la velocidad en las intersecciones y los segmentos de carreteras. Una extensión (108) reúne información sobre el estado interno del conductor de otro vehículo al incluir la ganancia de información sobre un estado de creencia en la función objetivo, reduciendo efectivamente la entropía. El estado de creencia codifica la afiliación con una de dos funciones de costo (o coste, como se emplea mayoritariamente en España) (o coste, como se emplea mayoritariamente en España) discretas que modelan el comportamiento del conductor, por ejemplo, atento frente a distraído. A diferencia de las formulaciones de POMDP relacionadas, la compensación de exploración-explotación aún no se aborda y está codificada solo por una combinación lineal de objetivos en la función de recompensa.Entre las Líneas En contraste, los pesos de la función de recompensa también se pueden encontrar haciendo que un conductor humano elija iterativamente una trayectoria preferida de un conjunto de dos trayectorias candidatas (109). Esto permite que el vehículo aprenda la función de recompensa sin un conjunto de trayectorias expertas y etiquetas predefinidas.

En un paso más hacia la comunicación de las funciones objetivas del robot a las personas, Huang et al. (110) reconoció que, a diferencia de los robots, los humanos no serán exactos en su inferencia de IRL. Presentaron una colección de modelos de inferencia aproximada y, en un estudio de usuarios, mostraron un mayor rendimiento (véase una definición en el diccionario y más detalles, en la plataforma general, sobre rendimientos) en comparación con un modelo de inferencia exacta.

Una implementación ejemplar de aprender diferentes estilos de conducción en una simulación de carretera mostró el potencial de los procesos de decisión de Markov con una función de recompensa desconocida (111). Abbeel et al. (112) demostró una versión mejorada del algoritmo y su rendimiento (véase una definición en el diccionario y más detalles, en la plataforma general, sobre rendimientos) al generar trayectorias similares a las humanas en los estacionamientos, con solo unas pocas demostraciones requeridas durante el aprendizaje.

📬Si este tipo de historias es justo lo que buscas, y quieres recibir actualizaciones y mucho contenido que no creemos encuentres en otro lugar, suscríbete a este substack. Es gratis, y puedes cancelar tu suscripción cuando quieras:

Qué piensas de este contenido? Estamos muy interesados en conocer tu opinión sobre este texto, para mejorar nuestras publicaciones. Por favor, comparte tus sugerencias en los comentarios. Revisaremos cada uno, y los tendremos en cuenta para ofrecer una mejor experiencia.

Ziebart et al. (113) aplicó el principio de IRL de máxima entropía, que es una opción natural para evitar el sobreajuste, ya que la distribución de máxima entropía muestra el menor compromiso con los datos. La máxima entropía IRL ha sido popular para las funciones de costos (o costes, como se emplea mayoritariamente en España) de aprendizaje en robótica y conducción autónoma. Kuderer et al. (114), Kretzschmar y col. (88), y Pfeiffer et al. (115) describieron el aprendizaje socialmente compatible con la planificación (véase más en esta plataforma general) del movimiento y el comportamiento humano. Herman et al. (116) presentó un enfoque para la navegación adaptativa prioritaria, donde un robot debe elegir modelos de navegación de diferentes aceptaciones sociales basadas en restricciones de tareas. Los modelos de comportamiento se aprenden mediante IRL de máxima entropía a partir de demostraciones de diferentes aceptaciones sociales. Se aplicó una variante similar, la planificación (véase más en esta plataforma general) de margen máximo (117), para navegar por un robot en un terreno complejo no estructurado (118) y para aprender estilos y maniobras de conducción autónoma.

El control óptimo inverso continuo con ejemplos localmente óptimos (120) se puede usar para manejar (gestionar) estados y acciones continuos y el hecho de que las demostraciones de los expertos pueden ser ruidosas y posiblemente óptimas a nivel local. Levine y Koltun (120) mostraron la capacidad de aprender estilos de conducción agresivos y evasivos a partir de demostraciones basadas en características que consisten en la velocidad, la desviación de los centros de carriles y las distribuciones gaussianas que cubren el frente, la parte posterior y los lados de los otros autos en la carretera. Del mismo modo, Sadigh et al. (87) demostró la capacidad de aprender recompensas del conductor humano como modelo para el comportamiento humano.

Majumdar et al. (121) diseñó un marco para IRL sensible al riesgo para poder tener en cuenta explícitamente la sensibilidad al riesgo de un experto. Este marco fue capaz de capturar rangos de diferentes preferencias de riesgo, desde el riesgo neutral hasta el peor de los casos. Se utilizó un algoritmo basado en programación lineal para inferir la métrica de riesgo oculto de un experto.

El marco IRL profundo de máxima entropía (122) explota la capacidad expresiva de las redes neuronales profundamente convolucionales para representar el modelo de costos (o costes, como se emplea mayoritariamente en España) que subyacen a los comportamientos de conducción. (Tal vez sea de interés más investigación sobre el concepto).Entre las Líneas En general, las redes neuronales profundas y completamente convolucionales, como aproximadores de funciones robustas, flexibles y de gran capacidad, son capaces de modelar muy bien la relación compleja entre la información sensorial y la estructura de recompensa.

Otros Elementos

Además, gracias a los operadores convolucionales, son capaces de capturar correlaciones espaciales en los datos. Wulfmeier et al. (123) pudieron aprender un mapeo de extremo a extremo de los datos de entrada en bruto al mapa de costos (o costes, como se emplea mayoritariamente en España) de más de 25,000 demostraciones a lo largo de 120 km de conducción.

Por último, Kuefler et al. (124) demostró la efectividad del aprendizaje generativo de imitación adversa (125), extendido a la optimización de políticas recurrentes. Como se discutió anteriormente, un enfoque para aprender políticas a partir de demostraciones de expertos es recuperar la función de costo (o coste, como se emplea mayoritariamente en España) (o coste, como se emplea mayoritariamente en España) del experto con IRL y luego extraer una política de esa función de costo (o coste, como se emplea mayoritariamente en España) (o coste, como se emplea mayoritariamente en España) con aprendizaje de refuerzo. Dado que este procedimiento directo suele ser lento, el aprendizaje generativo de imitación adversa plantea un marco para extraer políticas directamente de los datos. El enfoque reproduce el comportamiento emergente de los conductores humanos, como el comportamiento congruente de cambio de carril, mientras mantiene la validez en horizontes de tiempo prolongados.

Datos verificados por: Marck

Funcionamiento de los Vehículos, Coches o Autos Autónomos

En la entrada sobre este tema nos centramos en los avances recientes en la planificación y la toma de decisiones para vehículos autónomos (véase), especialmente:

  • cómo deciden los vehículos a dónde ir,
  • cómo los vehículos utilizan los datos proporcionados por sus sensores para tomar decisiones breves y horizontes a largo plazo,
  • cómo la interacción con otros vehículos afecta lo que debe hacer,
  • cómo los vehículos pueden aprender a conducir de su historia y de la conducción humana,
  • cómo garantizar que los sistemas de control y planificación (véase más en esta plataforma general) del vehículo son correcto y seguro,
  • cómo garantizar que los múltiples vehículos en la carretera al mismo tiempo se coordinan y se logran para mover a las personas y los paquetes a sus destinos de la manera más efectiva.
▷ Esperamos que haya sido de utilidad. Si conoces a alguien que pueda estar interesado en este tema, por favor comparte con él/ella este contenido. Es la mejor forma de ayudar al Proyecto Lawi.
▷ Lee Gratis Nuestras Publicaciones
,Si este contenido te interesa, considera recibir gratis nuestras publicaciones por email de Derecho empresarial, Emprender, Dinero, Políticas, Ecología, Carreras, Liderazgo, Ciencias sociales, Derecho global, Marketing digital y SEO, Inversiones y startups, Ensayos, Humanidades, y Sectores económicos, en Substack.

Contenidos Relacionados:

Los de arriba son los elementos relacionados con este contenido de la presente plataforma digital de ciencias sociales.

Foro de la Comunidad: ¿Estás satisfecho con tu experiencia? Por favor, sugiere ideas para ampliar o mejorar el contenido, o cómo ha sido tu experiencia:

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

▷ Recibe gratis nuestras revistas de Derecho empresarial, Emprender, Carreras, Dinero, Políticas, Ecología, Liderazgo, Marketing digital, Startups, Ensayos, Ciencias sociales, Derecho global, Humanidades, y Sectores económicos, en Substack. Cancela cuando quieras.
Index

Descubre más desde Plataforma de Derecho y Ciencias Sociales

Suscríbete ahora para seguir leyendo y obtener acceso al archivo completo.

Seguir leyendo