By: 24-7 Press Release
December 27, 2025
Une Nouvelle Ère D'Usines Intelligentes : Comment Les VLMs Permettent Des Partenariats Humain-Robot Plus Intelligents Et Plus Sûrs
KNOXVILLE, TN, 27 décembre 2025 /24-7PressRelease/ -- Les modèles vision-langage (VLM) transforment rapidement la façon dont les humains et les robots travaillent ensemble, ouvrant la voie vers des usines où les machines peuvent « voir », « lire » et « raisonner » presque comme des personnes. En fusionnant la perception visuelle avec la compréhension du langage naturel, ces modèles permettent aux robots d'interpréter des scènes complexes, de suivre des instructions orales ou écrites et de générer des plans en plusieurs étapes – une combinaison que les systèmes traditionnels basés sur des règles ne pouvaient pas réaliser. Cette nouvelle synthèse rassemble des recherches révolutionnaires sur la planification de tâches, la navigation, la manipulation et le transfert de compétences multimodales améliorés par les VLM. Elle montre comment les VLM permettent aux robots de devenir des collaborateurs flexibles plutôt que des outils programmés, signalant un changement profond dans l'architecture future de la fabrication intelligente.
La collaboration homme-robot a longtemps été présentée comme une pierre angulaire de la fabrication de nouvelle génération, mais les robots conventionnels sont souvent limités – contraints par une programmation rigide, une perception limitée et une compréhension minimale de l'intention humaine. Les lignes industrielles sont dynamiques, et les robots qui ne peuvent pas s'adapter ont du mal à fonctionner de manière fiable. Pendant ce temps, les progrès de l'intelligence artificielle, en particulier des grands modèles de langage et de l'apprentissage multimodal, ont commencé à montrer comment les machines pourraient communiquer et raisonner de manière plus humaine. Mais l'intégration de ces capacités dans les environnements d'usine reste fragmentée. En raison de ces défis, une investigation plus approfondie de la collaboration homme-robot basée sur les modèles vision-langage est urgemment nécessaire.
Une équipe de l'Université polytechnique de Hong Kong et de l'Institut royal de technologie KTH a publié (DOI : 10.1007/s42524-025-4136-9) une nouvelle synthèse dans Frontiers of Engineering Management (mars 2025), fournissant la première cartographie complète de la façon dont les modèles vision-langage (VLM) redéfinissent la collaboration homme-robot dans la fabrication intelligente. S'appuyant sur 109 études de 2020 à 2024, les auteurs examinent comment les VLM – systèmes d'IA qui traitent conjointement les images et le langage – permettent aux robots de planifier des tâches, de naviguer dans des environnements complexes, d'effectuer des manipulations et d'apprendre de nouvelles compétences directement à partir de démonstrations multimodales.
La synthèse retrace comment les VLM ajoutent une puissante couche cognitive aux robots, en commençant par les architectures de base basées sur les transformateurs et les conceptions à double encodeur. Elle décrit comment les VLM apprennent à aligner les images et le texte grâce à des objectifs contrastifs, à la modélisation générative et à l'appariement intermodal, produisant des espaces sémantiques partagés que les robots peuvent utiliser pour comprendre à la fois les environnements et les instructions. Dans la planification de tâches, les VLM aident les robots à interpréter les commandes humaines, à analyser les scènes en temps réel, à décomposer les instructions en plusieurs étapes et à générer des séquences d'actions exécutables. Les systèmes basés sur CLIP, GPT-4V, BERT et ResNet atteignent des taux de réussite supérieurs à 90 % dans les tâches d'assemblage collaboratif et de manipulation sur table. En navigation, les VLM permettent aux robots de traduire des objectifs en langage naturel en mouvements, en associant des indices visuels à des décisions spatiales. Ces modèles peuvent suivre des instructions détaillées étape par étape ou raisonner à partir d'une intention de haut niveau, permettant une autonomie robuste dans les environnements domestiques, industriels et incarnés. En manipulation, les VLM aident les robots à reconnaître les objets, à évaluer les affordances et à s'adapter au mouvement humain – des capacités clés pour une collaboration critique pour la sécurité sur les sols d'usine. La revue met également en lumière les travaux émergents sur le transfert de compétences multimodales, où les robots apprennent directement à partir de démonstrations visuelles et langagières plutôt que par un codage laborieux.
Les auteurs soulignent que les VLM marquent un tournant pour la robotique industrielle car ils permettent de passer d'une automatisation programmée à une compréhension contextuelle. « Les robots équipés de VLM peuvent comprendre à la fois ce qu'ils voient et ce qu'on leur dit », expliquent-ils, soulignant que ce raisonnement à double modalité rend l'interaction plus intuitive et plus sûre pour les travailleurs humains. En même temps, ils mettent en garde que la réalisation d'un déploiement à grande échelle nécessitera de relever les défis de l'efficacité des modèles, de leur robustesse et de la collecte de données, ainsi que de développer des référentiels multimodaux de qualité industrielle pour une évaluation fiable.
Les auteurs envisagent que les robots dotés de VLM deviendront centraux dans les futures usines intelligentes – capables de s'adapter à des tâches changeantes, d'aider les travailleurs dans l'assemblage, de récupérer des outils, de gérer la logistique, de réaliser des inspections d'équipements et de coordonner des systèmes multi-robots. À mesure que les VLM mûrissent, les robots pourraient apprendre de nouvelles procédures à partir de démonstrations vidéo et langagières, raisonner à travers des plans à long terme et collaborer fluidement avec les humains sans reprogrammation extensive. Les auteurs concluent que les percées dans les architectures VLM efficaces, les ensembles de données multimodales de haute qualité et le traitement en temps réel fiable seront essentiels pour débloquer leur plein impact industriel, ouvrant potentiellement une nouvelle ère de fabrication sûre, adaptative et centrée sur l'humain.
Références
DOI
10.1007/s42524-025-4136-9
URL de la source originale
https://doi.org/10.1007/s42524-025-4136-9
Informations sur le financement
Ce travail a été principalement soutenu par le financement de l'Institut de recherche pour la fabrication avancée (RIAM) de l'Université polytechnique de Hong Kong (1-CDJT) ; le projet interdisciplinaire intra-faculté 2023/24 (1-WZ4N), par le Comité de recherche de l'Université polytechnique de Hong Kong ; le Laboratoire clé d'État pour l'équipement et la technologie de fabrication intelligente, Université des sciences et technologies de Huazhong (IMETKF2024010) ; le régime de financement de la coopération technologique Guangdong–Hong Kong (GHX/075/22GD) ; la Commission de l'innovation et de la technologie (ITC) ; le projet de recherche collaborative internationale COMAC (COMAC-SFGS-2023-3148) ; et le Fonds général de recherche du Conseil des subventions de recherche de la Région administrative spéciale de Hong Kong, Chine (numéros de projet PolyU15210222 et PolyU15206723) ; financement en libre accès fourni par l'Université polytechnique de Hong Kong.
À propos du journal
Frontiers of Engineering Management
Chuanlink Innovations, où les idées révolutionnaires rencontrent leur véritable potentiel. Notre nom, ancré dans l'essence de la transmission et de la connexion, reflète notre engagement à favoriser l'innovation et à faciliter le parcours des idées de la conception à la réalisation.
Lien connexe :
http://chuanlink-innovations.com
Avertissement : Cette traduction a été générée automatiquement par NewsRamp™ pour 24-7 Press Release (collectivement désignés sous le nom de "LES ENTREPRISES") en utilisant des plateformes d'intelligence artificielle génératives accessibles au public. LES ENTREPRISES ne garantissent pas l'exactitude ni l'intégralité de cette traduction et ne seront pas responsables des erreurs, omissions ou inexactitudes. Vous vous fiez à cette traduction à vos propres risques. LES ENTREPRISES ne sont pas responsables des dommages ou pertes résultant de cette confiance. La version officielle et faisant autorité de ce communiqué de presse est la version anglaise.
