Distributed Multi-robot Control: Physics, Geometry and Learn(...).pdf

Distributed Multi-robot Control: Physics, Geometry and Learning

Sebastián Rodríguez, Eduardo
Sagüés Blázquiz, Carlos (dir.) ; Montijano Muñoz, Eduardo (dir.)

Universidad de Zaragoza, 2025

Resumen: Los sistemas multi-robot se perfilan como una solución prometedora para abordar tareas complejas, superando las capacidades de un solo robot. Su inherente paralelismo, su robustez ante fallos individuales y su capacidad para operar en entornos a gran escala los hacen especialmente atractivos para aplicaciones como búsqueda y rescate, vigilancia medioambiental, pastoreo y agricultura o automatización de almacenes. Sin embargo, la coordinación y el control de múltiples robots que operan mediante una infraestructura distribuida plantean retos fundamentales. En concreto, esta tesis aborda tres aspectos clave de los sistemas multi-robot distribuidos: (i) la eficacia de la coordinación en entornos altamente no lineales y volátiles; (ii) la reconstrucción rápida y precisa de información global; (iii) la escalabilidad de las políticas de control en el número de robots; y (iv) la gestión de la alimentación y energía. Para abordar los tres puntos, la tesis explota tres herramientas:
(i) las propiedades físicas de los sistemas distribuidos, (ii) técnicas de control geométrico y (iii) métodos de optimización distribuida y aprendizaje automático.
La primera parte de la tesis aborda el problema de control de sistemas dinámicos no lineales con respecto a la entrada mediante un equipo de robots. El principal ejemplo motivador es el del pastoreo multi-robot, en el que los robots aprovechan la dinámica reactiva altamente no lineal de los evasores para dirigirlos hacia regiones deseadas. Desarrollamos una novedosa técnica de control, denominada Control Implícito, capaz de estabilizar dinámicas no lineales en entrada y salida en tiempo continuo e imponer comportamientos transitorios deseados. Caracterizamos formalmente las principales propiedades de este nuevo método de control y mostramos sus beneficios para pastoreo multi-robot. La formulación original de Control Implícito es adecuada para sistemas centralizados. Por lo tanto, para lograr su descentralización, diseñamos nuevas técnicas de optimización distribuida, consenso y disenso. Con ellas se consigue, respectivamente, el método de optimización distribuida de primer orden más rápido que existe, la reconstrucción efectiva por parte de los robots de las magnitudes de control de interés, y la coordinación y evitación de colisiones basadas en percepción.
La segunda parte de la tesis se centra en la estimación estocástica distribuida para la adquisición rápida y precisa de contexto global. Como punto de partida, nos centramos en recuperar las propiedades de optimalidad del filtro de Kalman estándar centralizado en entornos distribuidos, preservando las propiedades de escalabilidad de los algoritmos existentes. Resolvemos el problema proponiendo el primer filtro de Kalman distribuido óptimo certificable bajo correlaciones desconocidas. Descubrimos que la fusión consistente de estimaciones correladas puede plantearse como un programa semidefinido que calcula el elipsoide exterior más pequeño que encierra la intersección de un conjunto de elipsoides. El programa local semidefinido se integra de forma transparente en un algoritmo de filtro de Kalman distribuido activado por eventos, desarrollando el estimador estocástico distribuido más rápido y eficiente, desde el punto de vista de la comunicación, para sistemas lineales gaussianos. El éxito de la solución nos motiva a seguir trabajando en la reconstrucció de la solución global del método elipsoidal de L¨owner-John, un programa semidefinido con aplicaciones en control robusto, visión por computador y estimación estocástica. La tesis deriva, por primera vez, soluciones en tiempo continuo y discreto para casos estáticos y variables en el tiempo.
La tercera parte de la tesis aborda el problema del aprendizaje de políticas de control multi-robot distribuidas que sean escalables y efectivas tanto en tareas cooperativas como competitivas. Detectamos que existe una variedad de tareas multi-robot que son difíciles de modelar matemáticamente, lo que motiva el uso de técnicas de aprendizaje. Proponemos una novedosa parametrización de políticas informada por la física y adaptada para abordar simultáneamente la escalabilidad, la eficiencia muestral en entrenamiento y la precisión en el comportamiento. La formulación se basa en los sistemas hamiltonianos, una descripción general pero sencilla de los sistemas físicos para codificar la naturaleza distribuida de los sistemas multi-robot. Complementamos el dise˜no con una parametrización basada en atención para manejar topologías variables en el tiempo. El éxito de esta novedosa parametrización se demuestra eficaz en entornos de aprendizaje por refuerzo y aprendizaje por imitación.
La cuarta y última parte de la tesis gira en torno a cómo trasladar algunas de estas técnicas de control multi-robot a sistemas energéticos. Los problemas examinados en esta parte se estudian desde la perspectiva de la teoría de control: identificación, estimación y control de dispositivos de potencia. En primer lugar, proponemos una solución para el problema de identificación automática de modelos térmicos de dispositivos de potencia a partir de demostraciones, con amplias aplicaciones en el diseño térmico óptimo de dispositivos de potencia. A continuación, consideramos la estimación y predicción estocástica de la tensión de baterías en instalaciones fotovoltaicas, donde la regresión de procesos gaussianos permite una predicción eficaz en infraestructuras medioambientales críticas. La última aplicación consiste en el control implementable no lineal de convertidores resonantes en serie de doble puente activo, un componente fundamental en muchos dispositivos, que van desde los propios robots autónomos a las estaciones de energía.

Resumen (otro idioma): Multi-robot systems emerge as a promising solution for tackling complex tasks that are beyond the capabilities of a single robot. Their inherent parallelism, robustness to individual failures, and ability to operate in large-scale environments make them particularly appealing for applications such as search and rescue, environmental monitoring, herding and agriculture, or warehouse automation. However, the coordination and control of multiple robots operating in a distributed infrastructure pose significant challenges. Specifically, this thesis aims to address four key aspects of distributed multi-robot systems: (i) effectiveness of coordination in highly nonlinear, volatile environments; (ii) fast and accurate reconstruction of collective information; (iii) scalability of the control policies in the number of robots; and (iv) power supply management. To address the four points, the thesis exploits three main tools: (i) physical properties of networked systems, (ii) geometrical control techniques and (iii) distributed optimization and machine learning methods. The first part of the thesis addresses the problem of controlling input-nonaffine dynamical systems by means of a team of robots. The main motivation example is that of multi-robot herding, where robots leverage the highly nonlinear input-nonaffine reactive dynamics of the evaders to steer them to desired regions. We develop a novel control technique, called Implicit Control, that is able to stabilize general continuous-time input-nonaffine dynamics and impose desired transient behaviors. We formally characterize the main properties of this new control method and show its beneficial properties for multirobot herding. The original Implicit Control formulation is suited for centralized systems. Therefore, to enable decentralization, we design novel fast distributed optimization, consensus and dissensus techniques. They achieve, respectively, the fastest existing first-order distributed optimization method, effective robot reconstruction of control quantities of interest, and perception-based effective coordination and collision avoidance. The second part of the thesis targets distributed stochastic estimation for fast and accurate global awareness acquisition. As departing point, we focus on recovering the optimality properties of the centralized standard Kalman filter in distributed settings, preserving the scalability properties of the existing algorithms. We resolve the problem by proposing the first certifiable optimal distributed Kalman filter under unknown correlations. We find that the consistent fusion of correlated estimates can be cast as a semi-definite program that computes the tightest outer ellipsoid that encloses the intersection of a set of ellipsoids. The local semi-definite program is seamlessly integrated in an event-triggered distributed Kalman filter algorithm to develop the most accurate and communication-efficient distributed stochastic estimator for linear Gaussian systems. The success of the solution motivates us to further work on reconstructing the global solution of the outer Lowner-John ellipsoidal method, a semi-definite program with applications in robust control, computer vision and stochastic estimation. The thesis derives, for the first time, continuous- and discrete-time solutions for static and time-varying cases. The third part of the thesis copes with the problem of learning distributed multirobot control policies that are scalable and effective in both cooperative and competitive tasks. We detect that there is a variety of multi-robot tasks that are hard to model mathematically, motivating the use of learning techniques. We propose a novel physics-informed policy parameterization tailored to simultaneously address scalability, sample efficiency and accuracy in performance. The formulation builds upon port-Hamiltonian systems, a general yet simple description of physical systems to encode the distributed nature of multi-robot systems. We complement the design with a self-attention-based parameterization to handle time-varying topologies. The success of this novel physics-informed policy parameterization is proved to be effective in multi-agent reinforcement learning and imitation learning settings. The fourth and last part of the thesis revolves around how to transfer some of these multi-robot control techniques to energy systems, an essential ingredient for robot autonomy. The problems examined in this part are considered through the lens of control theory: identification, estimation and control of power devices. We first propose a solution for the problem of automatic thermal model identification of power devices from demonstrations, with widespread applications in optimal thermal design of power devices. Next, we consider the fault-tolerant stochastic estimation and prediction of photovoltaic battery voltage, where Gaussian Process Regression allows effective online prediction of low-energy scenarios in critical environmental infrastructures. The last application consists in the nonlinear implementable control of dual active bridge series resonant converters, a fundamental component in many applications from robotic platforms to energy stations.

+

Pal. clave: ingeniería de control ; robótica ; inteligencia artificial

Titulación: Programa de Doctorado en Ingeniería de Sistemas e Informática
Plan(es): Plan 512

Área de conocimiento: Ingeniería y Arquitectura
Nota: Presentado: 07 03 2025
Nota: Tesis-Univ. Zaragoza, , 2025

Aportación del TFG/M a la Sostenibilidad: Desarrollar infraestructuras resilientes, promover la industrialización inclusiva y sostenible, y fomentar la innovación. Conseguir que las ciudades y los asentamientos humanos sean inclusivos, seguros, resilientes y sostenibles. Garantizar las pautas de consumo y de producción sostenibles.