Cinq questions sur le "Projet HoloLens" de Microsoft

Le nouveau casque de réalité augmentée de Microsoft est très excitant - mais peuvent-ils résoudre les problèmes fondamentaux de l'AR?

Mercredi matin, Microsoft a montré un projet sur lequel ils travaillent depuis sept ans, un casque de réalité augmentée appelé Projet HoloLens .

La vision est ambitieuse: ils veulent changer fondamentalement la façon dont les gens interagissent avec les ordinateurs, en construisant une paire de lunettes qui peuvent fluidifier le contenu virtuel et réel ensemble dans l'espace physique de l'utilisateur. C'est comme la technologie de réalité virtuelle Pourquoi la technologie de réalité virtuelle va souffler votre esprit en 5 ans Pourquoi la technologie de réalité virtuelle va souffler votre esprit en 5 ans L'avenir de la réalité virtuelle inclut la tête, le suivi des yeux et des expressions, le toucher simulé. Ces technologies étonnantes seront disponibles dans 5 ans ou moins. Lire la suite, mais fondamentalement plus puissant. De plus, ils veulent faire tout le traitement localement sur les lunettes - pas d'ordinateur, pas de téléphone, pas de câbles. Ils lancent même une version spéciale de Windows juste pour le nouveau matériel. C'est la prochaine étape dans l'évolution technologique pour tous ces jeux AR Applications de réalité augmentée: Utile, ou juste Hype? MakeUseOf teste les applications de réalité augmentée: utile, ou juste Hype? MakeUseOf Tests En 2011, les analystes ont prédit la montée en puissance des applications mobiles de réalité augmentée. La technologie naissante révolutionnerait la façon dont nous interagissons avec nos appareils mobiles. Flash avant deux ans et des dizaines d'applications AR peupler tout ... Lire la suite vous avez installé sur votre téléphone cette fois et n'ont pas touché depuis.

Leur calendrier est encore plus ambitieux que leurs objectifs: ils veulent expédier des kits de développement ce printemps, et le produit de consommation "pendant la période de Windows 10". Voici le terrain.

Tout cela a l'air super, mais j'admets un assez haut degré de scepticisme.

Les technologies utilisées par Microsoft présentent de sérieux défis fondamentaux, et jusqu'à présent, Microsoft a été très clair sur la façon dont (ou si) ils les ont résolus. S'ils ne les ont pas résolus, leur objectif d'expédition dans l'année est très préoccupant. La dernière chose dont VR et AR ont besoin, c'est d'une grosse entreprise qui expédie un autre produit à moitié cuit comme le Kinect. Rappelez-vous la démo Project Natal de 2009?

Sans plus tarder, voici les cinq choses les plus importantes que j'aimerais savoir sur les HoloLens.

Est-ce un affichage de champ lumineux?

Afin de comprendre celui-ci, nous devons regarder un peu plus en profondeur dans la 3D, et comment cela fonctionne. Afin d'obtenir la sensation d'un monde 3D réel et tangible, nos cerveaux intègrent un grand nombre d'informations différentes. Nous obtenons des signaux de profondeur sur le monde de trois façons principales:

Profondeur stéréo - la disparité entre ce que nos deux yeux voient. Faking c'est comme ça que fonctionnent les films en 3D
La parallaxe du mouvement - des mouvements subtils de la tête et du torse nous donnent des repères de profondeur supplémentaires pour les objets éloignés
Focalisation optique - lorsque nous nous concentrons sur quelque chose, les lentilles de nos yeux se déforment physiquement jusqu'à ce qu'elles se focalisent; les objets de champ proche nécessitent plus de distorsion de l'objectif, ce qui fournit des informations de profondeur sur ce que nous regardons

La mise au point optique est facile à vérifier par vous-même: fermez un œil et tenez votre pouce levé devant un mur à travers la pièce. Ensuite, déplacez votre focus de votre vignette à la surface derrière elle. Lorsque vous regardez au-delà de votre pouce, votre pouce se décale parce que la lentille de votre œil est maintenant moins déformée et ne peut pas recueillir correctement la lumière qui en provient.

Les casques de réalité virtuelle comme l'Oculus Rift fournissent les deux premiers indices de manière extrêmement précise, mais pas la dernière, ce qui fonctionne étonnamment bien: nos yeux se détendent complètement, puisque l'optique focalise les images comme si la lumière venait de loin. L'absence de repère optique est irréaliste, mais elle n'est généralement pas gênante. Vous pouvez toujours avoir des expériences de jeu très cool 5 Oculus Rift expériences de jeu qui vous emportera 5 Oculus Rift expériences de jeu qui vous soufflera Maintenant que la deuxième génération de kit de développement Oculus Rift est sorti et entre les mains des développeurs du monde entier, regardons quelques-unes des meilleures choses qui ont frappé la faille jusqu'ici. Lire la suite sans.

En réalité augmentée, le problème est différent, car il faut mélanger la lumière des objets réels et virtuels. La lumière du monde réel sera naturellement concentrée à différentes profondeurs. Le contenu virtuel, cependant, sera tout être concentré sur une distance fixe, artificielle dictée par l'optique - probablement sur l'infini. Les objets virtuels n'auront pas l'air de faire partie de la scène. Ils seront flous lorsque vous regarderez des choses réelles à la même profondeur et vice versa. Il ne sera pas possible de bouger vos yeux de façon fluide tout en gardant la mise au point, comme vous le faites normalement. Les indices de profondeur contradictoires seront au mieux confus, et écoeurant au pire.

Afin de résoudre ce problème, vous avez besoin de quelque chose appelé un affichage de champ lumineux. Les affichages de champ lumineux sont des affichages qui utilisent une série de lentilles minuscules pour afficher la lumière focalisée à plusieurs profondeurs simultanément. Cela permet à l'utilisateur de se concentrer naturellement sur l'affichage et (pour la réalité augmentée) résout le problème décrit ci-dessus.

Il y a cependant un problème: les affichages de champ lumineux mappent essentiellement un seul écran 2D sur un champ de lumière tridimensionnel, ce qui signifie que chaque "pixel de profondeur" que l'utilisateur perçoit (et existe à une profondeur focale particulière dans la scène) est en fait composé de la lumière de nombreux pixels sur l'écran d'origine. Plus la profondeur que vous voulez représenter est fine, plus vous avez de résolution à abandonner.

Généralement, les champs lumineux ont une résolution d'environ huit fois pour donner une précision de profondeur adéquate. Les meilleurs microdisplays disponibles ont une résolution d'environ 1080p. En supposant qu'un microdisplay haut de gamme pilotant chaque oeil, cela ferait la résolution réelle du casque de Microsoft seulement environ 500 x 500 pixels par oeil, moins même que l'Oculus Rift DK1. Si l'affichage a un champ de vision élevé, les objets virtuels seront des blobs incompréhensibles de pixels. Si ce n'est pas le cas, l'immersion en souffrira proportionnellement. Nous ne voyons jamais à travers l'objectif (juste des re-créations informatiques de ce que l'utilisateur voit), donc nous n'avons aucune idée de ce que l'expérience utilisateur est vraiment.

Il est possible que Microsoft ait trouvé une nouvelle solution à ce problème, pour permettre l'utilisation d'un affichage de champ lumineux sans le compromis de résolution. Cependant, Microsoft a été extrêmement méfiant à propos de leur technologie d'affichage, ce qui me fait penser qu'ils ne l'ont pas fait. Voici la meilleure explication que nous avons jusqu'à présent (de la démo WIRED ).

Pour créer des images de Project HoloLens, les particules de lumière rebondissent des millions de fois dans le moteur dit léger de l'appareil. Ensuite, les photons entrent dans les deux lentilles des lunettes, où ils ricochent entre les couches de verre bleu, vert et rouge avant d'atteindre le fond de l'œil.

Ce genre de description de la technologie pourrait signifier pratiquement n'importe quoi (bien que, en toute justice pour Microsoft, le matériel ait impressionné WIRED, bien que l'article ait été léger sur des détails).

Nous n'en saurons plus avec certitude jusqu'à ce que Microsoft commence à publier des spécifications techniques, probablement dans des mois. Sur une autre note de nit picking, est-il vraiment nécessaire de noyer le projet dans ce marketing-parler? Le processeur dédié qu'ils utilisent pour le suivi de la tête est appelé un "processeur holographique" et les images sont appelées "hologrammes", sans raison particulière. Le produit est fondamentalement assez cool qu'il n'est vraiment pas nécessaire de le dorer comme ça.

Le suivi est-il suffisant?

Le casque Project HoloLens est équipé d'une caméra de profondeur de champ élevé (comme le Kinect), qu'il utilise pour déterminer où se trouve le casque dans l'espace (en essayant d'aligner l'image de profondeur qu'il voit avec son modèle du monde, composite d'images de profondeur passées). Voici leur démo en direct du casque en action.

Le tracking est impressionnant si l'on considère qu'il n'utilise pas de marqueurs ou d'autres triches, mais même dans cette vidéo (dans des conditions fortement contrôlées), vous pouvez voir une certaine quantité de wobble: le tracking n'est pas complètement stable. C'est à prévoir: ce genre de suivi à l'envers est extrêmement difficile.

Cependant, la grande leçon des différents prototypes d'Oculus Rift Regardez-nous Essayer L'Oculus Rift Crescent Bay Au CES 2015 Regardez-nous Essayer L'Oculus Rift Crescent Bay Au CES 2015 Le Oculus Rift Crescent Bay est un tout nouveau prototype qui montre quelques améliorations passionnantes dans technologie de réalité virtuelle. Nous l'essayons au CES 2015. En savoir plus, c'est que l'exactitude du suivi est importante. Le suivi de Jittery est simplement ennuyeux quand il s'agit de quelques objets dans un monde réel largement stable, mais dans des scènes comme la démo de Mars qu'ils ont montrée dans leur vidéo concept, où presque tout ce que vous voyez est virtuel, suivi imprécis. présence "dans la scène virtuelle, ou même maladie du simulateur. Est-ce que Microsoft peut obtenir le suivi à la norme définie par Oculus (précision de suivi sub-millimétrique et moins de 20 ms de latence totale) par leur date d'expédition à la fin de cette année?

Voici Michael Abrash, un chercheur de VR qui a travaillé pour Valve et Oculus, en parlant du problème

[Parce qu'il y a toujours un retard dans la génération d'images virtuelles, [...] il est très difficile de faire en sorte que les images virtuelles et réelles s'inscrivent assez étroitement pour que l'œil ne s'en aperçoive pas. Par exemple, supposons que vous ayez une vraie canette de Coca-Cola que vous voulez transformer en cannette AR Pepsi en dessinant un logo Pepsi sur le logo Coca-Cola. S'il faut des dizaines de millisecondes pour redessiner le logo Pepsi, chaque fois que vous faites pivoter votre tête, le logo Pepsi aura l'air de se décaler de quelques degrés par rapport à la boîte, et une partie du logo Coke deviendra visible; alors le logo Pepsi reviendra au bon endroit quand vous arrêtez de bouger. Ce n'est clairement pas assez bon pour AR dur

L'affichage peut-il être noir?

Une autre question à côté de la profondeur focale et du suivi concerne le dessin de couleurs sombres. Ajouter plus de lumière à une scène est relativement simple, en utilisant des diviseurs de faisceau. Prendre la lumière est beaucoup plus difficile. Comment assombrissez-vous sélectivement des parties du monde réel? Mettre en place un écran LCD sélectivement transparent ne le coupera pas, car il ne peut pas toujours être au bon endroit pour bloquer ce que vous regardez. Les outils optiques pour résoudre ce problème, à moins que Microsoft ne les ait inventés secrètement, n'existent tout simplement pas.

Cela compte, car pour beaucoup d'applications que Microsoft montre (comme regarder Netflix sur votre mur), le casque doit vraiment pouvoir enlever la lumière du mur, sinon votre film aura toujours un motif de stuc visible. avec elle: il sera impossible pour l'imagerie de bloquer les objets réels dans la scène, ce qui rend l'utilisation de l'oreillette fortement dépendante des conditions d'éclairage ambiant. Retour à Michael Abrash:

Il n'y a rien de tel dans l'industrie ou dans la littérature AR, et à moins que ce ne soit le cas, l'AR dur, dans le sens SF que nous connaissons et aimons tous, ne peut exister que dans l'obscurité.
Cela ne veut pas dire que AR est hors jeu, mais que pour un moment ce sera un AR doux, basé sur un mélange additif [...] Encore une fois, pensez translucide comme "Ghostbusters". Des images virtuelles de haute intensité sans zones sombres travailler aussi, particulièrement avec l'aide de l'assombrissement régional ou global - ils ne sembleront juste pas une partie du monde réel.

Qu'en est-il de l'occlusion?

"Occlusion" est le terme pour ce qui se passe quand un objet passe devant un autre et vous empêche de voir ce qu'il y a derrière. Pour que les paysages virtuels se sentent comme une partie tangible du monde, il est important que les objets réels occluent les objets virtuels: si vous tenez votre main devant une image virtuelle, vous ne devriez pas pouvoir la voir à travers ta main. En raison de l'utilisation d'une caméra de profondeur sur le casque, c'est réellement possible. Mais, regardez à nouveau la démo en direct:

Dans l'ensemble, ils contrôlent soigneusement les angles de la caméra pour éviter que de vrais objets passent devant des objets virtuels. Cependant, lorsque le démonstrateur interagit avec le menu Windows, vous pouvez voir que sa main ne l'obstrue pas du tout. Si cela est hors de portée de leur technologie, c'est un très mauvais signe pour la viabilité de leur produit de consommation.

Et en parlant de cette interface ...

Est-ce vraiment l'interface utilisateur finale?

L'interface utilisateur affichée par Microsoft dans leurs vidéos de démonstration semble fonctionner en utilisant une combinaison de suivi du regard et de la main pour contrôler un curseur dans la scène virtuelle, tout en utilisant des commandes vocales pour sélectionner entre différentes options. Cela a deux inconvénients majeurs: il vous fait ressembler au petit enfant du Shining qui parle à son doigt, mais plus important encore, il représente aussi un paradigme de conception fondamentalement défectueux.

Historiquement, les meilleures interfaces utilisateur ont été celles qui apportent des intuitions physiques sur le monde dans le monde virtuel. La souris a apporté un clic, un glissement et des fenêtres. Interface tactile a fait glisser pour faire défiler et pincer pour zoomer. Ces deux éléments étaient essentiels pour rendre les ordinateurs plus accessibles et utiles à la population en général - parce qu'ils étaient fondamentalement plus intuitifs que ce qui était auparavant.

VR et AR vous donnent beaucoup plus de liberté en tant que concepteur: vous pouvez placer des éléments d'interface utilisateur n'importe où sur un espace 3D, et les utilisateurs interagissent naturellement avec eux, comme s'ils étaient des objets physiques. Un grand nombre de métaphores évidentes se suggèrent. Touchez un élément d'interface utilisateur virtuel pour le sélectionner. Pincez-le pour le ramasser et le déplacer. Faites-le glisser hors du chemin pour le stocker temporairement. Écrasez-le pour le supprimer. Vous pouvez imaginer construire une interface utilisateur tellement intuitive qu'elle ne nécessite aucune explication. Quelque chose que votre grand-mère peut saisir instantanément, parce qu'il est construit sur une base d'intuitions physiques de base que tout le monde construit au cours de sa vie d'interaction avec le monde. Prenez une minute et écoutez cette personne intelligente décrire quelles interfaces immersives pourraient être.

En d'autres termes, il me semble évident qu'une interface utilisateur immersive devrait être au moins aussi intuitive que les interfaces tactiles mises au point par l'iPhone pour les écrans multitouch 2D. Construire une interface autour de la manipulation d'une «souris» VR est un pas en arrière, et expose les lacunes technologiques profondes dans leur technologie de suivi de la main ou une incompréhension fondamentale de ce qui est intéressant sur ce nouveau support. De toute façon, c'est un très mauvais signe que ce produit soit plus qu'un flop colossal à l'échelle Kinect.

Heureusement, Microsoft a le temps d'obtenir des commentaires à ce sujet et de faire un meilleur travail. A titre d'exemple, voici une interface conçue par un amateur pour l'Oculus Rift DK2 et le Leap Motion. Une interface utilisateur immersive conçue par une grande entreprise devrait être au moins aussi bonne.

Un signe des choses à venir

Dans l'ensemble, je suis extrêmement sceptique vis-à-vis du projet HoloLens dans son ensemble. Je suis très heureux qu'une entreprise disposant des ressources de Microsoft étudie cette question, mais je crains qu'ils essaient de faire sortir un produit sans résoudre certains problèmes techniques sous-jacents critiques, ou de clouer un bon paradigme de l'interface utilisateur. Le HoloLens est un signe des choses à venir, mais cela ne signifie pas que le produit lui-même va fournir une bonne expérience aux consommateurs.

Crédit d'image: gracieuseté de Microsoft