La réalité augmentée et le deep learning

Réalité augmentée et intelligence artificielle — *Computer vision dans Terminator 2*

La réalité augmentée, un terme chapeau ?

L’utilisation de la réalité augmentée en dehors du contexte marketing doit encore relever quelques défis pour une utilisation intuitive, ergonomique et précise.

Les différentes perspectives alléchantes peuvent être trompeuses comme nous l’avions écrit dans notre article sur les vraies et fausses promesses de la réalité virtuelle et augmentée.

Lorsqu’il s’agit d’enrichir l’expérience réelle de utilisateur via de l’AR, on pourrait distinguer différentes situations:

La visée haute consistant simplement à afficher des informations contextuelles dans le champs de vision, pas forcément localisées sur la vision de l’utilisateur. Comme une vitesse sur un pare brise de voiture. Historiquement la visée sur les avions de chasse.
Les systèmes d’augmentation du visage comme on peut trouver dans Snapchat, etc.
L’identification et analyse de la zone précise dans l’image avec un retour immédiat.
L’incrustation spatialisée d’objets virtuels dans la scène: l’immersion la plus aboutie.

Dans cet article, nous allons nous intéresser au cas qui nécessite l’appréhension la plus poussée de l’environnement, c’est à dire les deux derniers cas, assimilés ici à des usages professionnels.

Un véritable enjeu: caler la scène virtuel sur le monde réel. De façon la plus automatique possible.

Il est évident que la juxtaposition du réel et du virtuel est centrale pour une expérience augmentée efficace.

On notera que l’on se place dans un cas plus complexe que l’apparition automatique d’un canapé virtuel sur le sol réel. L’enjeu est bien de coller à l’environnement avec plus de finesse. Un contexte que l’on qualifie de professionnel ou B2B.

Pour détecter le réel et positionner des objets virtuels dans l’univers physique, différentes approches.

Un marqueur 2D sert à initier l’expérience et à caler le réel sur le virtuel. Cela signifie donc qu’il est nécessaire de placer le marqueur dans l’univers physique.

La reconnaissance d’un modèle 3D particulier comme une pièce, nécessite d’avoir la modélisation 3D et ne supporte pas certaines conditions d’éclairage ou certains comportements de matériaux.

Apprentissage d'un modèle 3D pour reconnaissance en réalité augmentée — *Object recognition de Vuforia*

Le placement d’une ancre spatialisé va permettre aussi de caler la scène, avec la notion de spatial computing. Cela requiert une manipulation approximative et préalable de la part d’utilisateur, qui sera à renouveler pour tout nouvel espace ou dans les cas de dérèglement.

Utilisation des ancres spatialisées en réalité augmentée — *Principe de l’ancre spatiale*

Si dans chacun de ces cas, il n’est plus besoin de garder l’objet de référence dans le champs de vision grâce au tracking étendu, nous sommes confrontés à de constants problème de dérive, comprendre: un décalage progressif de la juxtaposition virtuel/réel. Au démarrage ou au cours de l’expérience.

Il faut donc désigner ces expériences en fonction des contraintes technologiques existantes.

Si on devait synthétiser, nous pourrions dire que ces expériences de réalité augmentée sont sensibles aux conditions de l’environnement. Si celui est altéré d’une quelconque façon, le système devient instable.

Il n’y a pas non plus dans ces cas là, une détection sémantique de l’environnement. Pour simplifier plutôt que de détecter “un chat”, ces approche détectent “exactement ce chat”.

Quelles sont les utilisation actuelles de la réalité augmentée ?

La réalité augmentée dans son usage grand public est souvent marketing, avec des marqueurs 2D ou 3D (modèles géométriques à construire ou à récupérer et retravailler depuis CAO).

Il peut être aussi ludique comme Pokemon GO, avec le succès qu’on lui connaît. Dans le cas de ce dernier, pas de besoin d’exigence forte de corrélation virtuelle/ réelle: la concordance avec le réel se concentre sur la détection du sol et à un système d’occlusion.

L’utilisation en entreprise requiert en général une réalité augmentée avec le besoin de “comprendre” le contexte au delà de la simple détection du sol: il faut interagir avec des objets donnés et avec un certain niveau de précision.

Guider un chirurgien ou un technicien qui fait une manipulation de maintenance sur un avion permet de comprendre l’absolue appréhension d’un contexte complexe. Avec le besoin d’une grande fiabilité.

Nous sommes alors confrontés aux contraintes citées précédemment.

De plus, il existe des des intervention dans un périmètre défini et cadré mais dans des contextes “variables”.

Imaginons un opérateur qui intervient sur des câbles. Pas de marqueurs 2D placés sur le câble, pas de modèle 3D du câble Une torsion et position jamais identique qui rendent tous les systèmes de calibration en réalité augmentée inapplicables.

Le technicien doit, une fois le câble repéré, le couper avec des dimensions et une méthodologie de dénudage mais dans un contexte qui ne garantit jamais des situations similaires.

Le deep learning pour améliorer le tracking

Les algorithmes de machine learning, basé sur les réseaux de neurones, permettent par le biais de l’apprentissage de sortir des biais du “computer vision” classique.

A condition bien sûr des la alimenter avec des jeux de données signifiants via un apprentissage supervisé, donc du big data.s tolérante aux conditions environnantes. L’usage du deep learning pour le contrôle qualité et la maintenance peut donc s’avérer un support très efficace pour les équipes opérationnelles. Par exemple pour de l’inspection visuelle, l’amélioration de la ligne de production ou des process de fabrication.

Grâce à l’IA, il est alors possible d’effectuer ces détections en temps réel, avec un niveau d’abstraction, apportant plus de souplesse. Plutôt que de se concentrer sur la détection d’un système immuable dans son motif 2D ou quant à sa forme, on peut se concentrer sur des concepts plus abstraits.

Pour être exact, dans l’exemple évoqué, il s’agit de computer vision et deep learning.

Cette approche est aussi plus tolérante aux conditions environnantes. L’usage du deep learning pour le contrôle qualité et la maintenance peut donc s’avérer un support très efficace pour les équipes opérationnelles. Par exemple pour de l’inspection visuelle, l’amélioration de la ligne de production ou des process de fabrication.

Et le devenir de la réalité augmentée ?

Depuis les device smartphone/tablette, on attend avec impatience l’arrivée des périphériques mains libres.

C’est à dire aussi bien les lunettes “visée haute”/smart glasses que les lunette de réalité augmentée 3D.

Les lunettes de réalité augmentée représentent le niveau d’aboutissement le plus élevé en terme d’immersion avec l’insertion réaliste et spatialisé d’objets en 3D dans le réel.

Les dispositifs existants sont impressionnants avec toutefois de bonnes marges de progression : ils restent encore chers avec un champs de vision limitée, une capacité de calcul restreinte, une batterie faible, une ergonomie discutable.

Donc encore limitée à des sujets exploratoires ou à des usages très spécifiques et maîtrisés.

La réutilisation de modèles 3D, nécessite aussi un coût de production non négligeable.

Face aux défauts de tracking évoqués plus haut, le deep learning peut apporter un support très efficace à l’expérience de réalité augmentée.

Une détection très précise d’une zone pour une utilisation du processeur frugale. Le calcul effectué à chaque image sur un simple smartphone limite considérablement la dérive.

On comprend ainsi que le deep learning peut être utilisé de façon autonome pour identifier très rapidement des zones dans une image/vision. On imaginera un utilisateur visualiser dans son smartphone ou dans ces lunettes les zones d’intervention avec des informations additionnelles: texte, flèche et mesure. En mêlant une approche intelligence artificielle et computer vision “classique”.
Le deep learning pourrait être aussi un support à des expériences riches avec apparition d’objets virtuels, spatialisés et contextualisés. Il est alors comme un complément de calage et d’identification et pourrait étendre les usages des lunettes de réalité augmentée au delà d’un univers très maîtrisé (dimension, conditions lumineuses, etc)

Nous pensons qu’il est aujourd’hui possible d’aborder des problématiques industriels “tout terrain” grâce au deep learning.

Un niveau de réalité augmentée plus facilement industrialisable dans l’immédiat que la réalité augmentée avec affichage de données 3D.

Il s’agit de donner à un utilisateur la possibilité d’avoir un retour visuel très robuste et immédiat, en affichant des informations additionnelles, sans besoin d’aller jusqu’à de la 3D spatialisée. Mais qui pourrait venir toutefois compléter l’expérience.