Alexa, comment fonctionne Siri? Contrôle vocal expliqué

Le monde évolue vers des commandes vocales pour tout, mais comment fonctionne exactement le contrôle vocal? Pourquoi est-il si glitchy et restreint? Voici ce que vous devez savoir en tant qu'utilisateur profane.

Le monde évolue vers des commandes vocales pour tout, mais comment fonctionne exactement le contrôle vocal?  Pourquoi est-il si glitchy et restreint?  Voici ce que vous devez savoir en tant qu'utilisateur profane.
Publicité

Nous pouvons parler à presque tous nos gadgets maintenant, mais comment cela fonctionne-t-il exactement? Quand vous demandez "Quelle chanson est-ce?" Ou dites "Appelez maman", un miracle de la technologie moderne se produit. Et même si on se sent à la fine pointe, cette idée de parler à des appareils remonte à des décennies - presque aussi loin que les jetpacks en science-fiction!

Aujourd'hui, la majeure partie de l'attention accordée à l'informatique vocale est sur les smartphones. Apple, Amazon, Microsoft et Google sont au sommet de la chaîne, chacun offrant sa propre façon de parler à l'électronique. Vous savez qui ils sont: Siri, Alexa, Cortana et l'être "Ok, Google" sans nom. Ce qui soulève une grande question ...

Comment un appareil prend-il des mots et les transforme en commandes qu'il peut comprendre? Essentiellement, cela revient à établir des correspondances et à faire des prédictions basées sur ces modèles. Plus spécifiquement, la reconnaissance vocale est une tâche complexe issue de la modélisation acoustique et de la modélisation linguistique .

Modélisation acoustique: formes d'ondes et téléphones

forme d'onde

La modélisation acoustique est le processus consistant à prendre une forme d'onde de la parole et à l'analyser à l'aide de modèles statistiques. La méthode la plus courante pour cela est la modélisation de Markov cachée, qui est utilisée dans ce qu'on appelle la modélisation de la prononciation pour décomposer la parole en composantes appelées téléphones (à ne pas confondre avec les appareils téléphoniques réels). Microsoft a été un chercheur de premier plan dans ce domaine depuis de nombreuses années.

Modélisation de Markov cachée: états de probabilité

La modélisation de Markov cachée est un modèle mathématique prédictif où l'état actuel est déterminé en analysant la sortie. Wikipedia a un bon exemple en utilisant deux amis.

Imaginez deux amis - un ami local et un ami à distance - qui vivent dans différentes villes. Local Friend veut savoir quel temps il fait quand Remote Friend vit, mais Remote Friend veut seulement parler de ce qu'il a fait ce jour-là: marcher, magasiner ou nettoyer. La probabilité de chaque activité en fonction de la météo du jour.

Modélisation de Markov cachée

Imaginez que c'est la seule information disponible. Avec lui, Local Friend peut trouver des tendances sur la façon dont la météo change au jour le jour, et en utilisant ces tendances, elle peut commencer à faire des suppositions éclairées sur ce que la météo d'aujourd'hui sera basée sur l'activité de son ami hier. (Vous pouvez voir un diagramme du système ci-dessus.)

Si vous voulez un exemple plus complexe, consultez cet exemple sur Matlab. Dans la reconnaissance vocale, ce modèle compare essentiellement chaque partie de la forme d'onde avec ce qui vient avant et ce qui vient après, et contre un dictionnaire de formes d'onde pour comprendre ce qui est dit.

Essentiellement, si vous faites un "th", il va vérifier ce son contre les sons les plus probables qui viennent habituellement avant et après. Peut-être que cela signifie vérifier contre le son "e", le son "at", et ainsi de suite. Lorsque le motif correspond correctement, il a alors votre mot entier. C'est une simplification excessive, mais vous pouvez voir l'explication complète de Microsoft ici.

Modélisation du langage: plus que du son

La modélisation acoustique aide grandement votre ordinateur à vous comprendre, mais qu'en est-il des homonymes et des variations régionales dans la prononciation? C'est là que la modélisation linguistique entre en jeu. Google a conduit beaucoup de recherches dans ce domaine, principalement grâce à l'utilisation de la modélisation N-gram .

Lorsque Google essaie de comprendre votre discours, il le fait sur la base de modèles dérivés de sa banque massive de recherches vocales et de transcriptions YouTube. Toutes ces légendes vidéo hilarement mal ont en fait aidé Google à faire évoluer leurs dictionnaires. En outre, ils ont utilisé le GOOG-411 qui a quitté pour recueillir des informations sur la façon dont les gens parlent.

shutterstock_70757203

Toute cette collection de langues a créé une vaste gamme de prononciations et de dialectes, ce qui en fait un dictionnaire de mots robuste et sonorisé. Cela permet des correspondances qui ont un taux d'erreur fortement réduit par rapport à la comparaison de force brute basée sur des probabilités brutes. Vous pouvez lire un bref document décrivant leurs méthodes ici.

Alors que Google est un leader dans ce domaine, d'autres modèles mathématiques sont en cours de développement, y compris des modèles d'espace continu et des modèles de langage positionnels, qui sont des techniques plus avancées issues de la recherche en intelligence artificielle. Ces méthodes sont basées sur la réplication du genre de raisonnement que les humains font en s'écoutant les uns les autres. Ceux-ci sont beaucoup plus avancés en termes de technologie derrière eux, mais aussi les mathématiques et la programmation nécessaires pour cartographier ces modèles.

Modélisation N-Gram: la probabilité rencontre la mémoire

N-gram Modelling fonctionne sur la base de probabilités, mais il utilise un dictionnaire de mots existant pour créer un arbre de possibilités ramifié, qui est ensuite lissé pour des raisons d'efficacité. D'une certaine manière, cela signifie que la modélisation N-gram élimine une grande partie de l'incertitude dans la modélisation de Markov cachée susmentionnée.

Comme indiqué ci-dessus, la force de cette méthode vient d'avoir un grand dictionnaire de mots et d' usage, pas seulement des sons primitifs. Cela donne au programme la capacité de faire la différence entre les homophones, comme «battre» et «betterave». C'est contextuel, ce qui signifie que lorsque vous parlez des résultats d'hier soir, le programme ne tire pas de mots sur le bortsch.

Mais ces modèles ne sont pas les meilleurs pour la langue, principalement en raison de problèmes avec des probabilités de mots dans des phrases plus longues. Au fur et à mesure que vous ajoutez d'autres mots à une phrase, ce modèle s'en trouve un peu déçu, car il est peu probable que vos premiers mots aient chargé tout ce dont vous avez besoin pour votre réflexion complète.

Cependant, il est simple et facile à mettre en œuvre, ce qui en fait un excellent choix pour une entreprise comme Google qui aime lancer des serveurs à des problèmes de calcul. Vous pouvez faire d'autres lectures sur N-gram Modelieng à l'Université de Washington, ou vous pouvez regarder une conférence à Coursera.

Crier aux nuages: applications et appareils

Quiconque a utilisé Siri connaît la frustration d'une connexion réseau lente. C'est parce que vos commandes à Siri sont envoyées sur le réseau pour être décodées par Apple. Cortana pour Windows Phone nécessite également une connexion réseau pour fonctionner correctement. En revanche, l'Echo d'Amazon est juste un haut-parleur Bluetooth sans Internet.

Pourquoi la différence? Parce que Siri et Cortana ont besoin de serveurs puissants pour décoder votre discours. Pourrait-il être fait sur votre téléphone ou votre tablette? Bien sûr, mais vous tueriez votre performance et la vie de la batterie dans le processus. Il est plus logique de décharger le traitement sur des machines dédiées.

SIGCHI_Conference_Paper_Format _-_ KumarSpeechRecognitionForMobileApps_pdf

Pensez-y de cette façon: votre commande est une voiture coincée dans la boue. Vous pourriez probablement vous en sortir avec suffisamment de temps et d'efforts, mais cela prendra des heures et vous laissera épuisé. Au lieu de cela, vous appelez l'assistance routière et ils tirent votre voiture en quelques minutes. L'inconvénient est que vous devez faire l'appel et les attendre, mais c'est encore plus rapide et moins taxant.

Les modèles de bureau comme Nuance ont tendance à utiliser des ressources locales en raison du matériel plus puissant. Après tout, selon Steve Jobs, votre ordinateur de bureau est un camion. (Ce qui rend un peu idiot que OS X utilise des serveurs pour son traitement.) Ainsi, lorsque vous devez traiter le langage et la voix, il est déjà suffisamment équipé pour le gérer seul.

D'autre part, Android permet aux développeurs d'inclure la reconnaissance vocale hors ligne dans leurs applications. Google aime prendre de l'avance sur la technologie, et vous pouvez parier que les autres plateformes acquerront cette capacité à mesure que leur matériel devient plus puissant. Personne n'aime quand une mauvaise couverture ou une mauvaise réception lobotomise leur appareil.

Commencer à utiliser les commandes vocales maintenant

Maintenant que vous connaissez les concepts fondamentaux, vous devriez jouer avec vos différents appareils. Essayez la nouvelle voix en tapant dans Google Docs Comment la dactylographie est la nouvelle meilleure fonctionnalité de Google Docs Comment la dactylographie est la nouvelle meilleure fonctionnalité de Google Docs La reconnaissance vocale s'est améliorée à pas de géant au cours des dernières années. Plus tôt cette semaine, Google a finalement introduit la saisie vocale dans Google Docs. Mais est-ce correct? Découvrons-le! Lire la suite . Comme si la suite Web Office n'était pas déjà assez puissante, le contrôle vocal vous permet de dicter et de formater complètement vos documents. Cela élargit la technologie puissante qu'ils ont déjà conçu pour Chrome et Android.

D'autres idées incluent la configuration de votre Mac pour utiliser les commandes vocales Comment utiliser les commandes vocales sur votre Mac Comment utiliser les commandes vocales sur votre Mac En savoir plus et configurer votre Amazon Echo avec le contrôle automatisé Comment Amazon Echo peut faire de votre maison L'écho peut faire de votre maison une maison intelligente La technologie de la maison intelligente est encore à ses débuts, mais un nouveau produit d'Amazon appelé "Echo" peut aider à l'amener dans le courant dominant. Lire la suite . Vivre dans le futur et embrasser parler à vos gadgets - même si vous commandez juste plus de serviettes en papier. Si vous êtes un accro du smartphone, nous avons aussi des tutoriels pour Siri 8 choses que vous n'avez probablement pas réalisé Siri pourrait faire 8 choses que vous n'avez probablement pas réalisé Siri pourrait faire Siri est devenu l'une des caractéristiques de l'iPhone, mais pour Beaucoup de gens, ce n'est pas toujours le plus utile. Tandis que certains de ceci est dû aux limitations de la reconnaissance de voix, la ... Lire la suite, Cortana 6 Choses les plus fraîches que vous pouvez contrôler avec Cortana dans Windows 10 6 Choses les plus fraîches que vous pouvez contrôler avec Cortana dans Windows 10 Cortana peut vous aider passez la main libre sur Windows 10. Vous pouvez la laisser rechercher vos fichiers et le web, faire des calculs, ou remonter les prévisions météo. Ici, nous couvrons certaines de ses compétences plus cool. Lire la suite, et Android OK, Google: 20+ choses utiles que vous pouvez dire à votre téléphone Android OK, Google: 20+ choses utiles que vous pouvez dire à votre téléphone Android Lentement, sans nous en apercevoir, le futur est arrivé. Lire la suite .

Quelle est votre utilisation préférée du contrôle vocal? Faites le nous savoir dans les commentaires.

Crédits image: T-flex via Shutterstock, Terencehonles via Wikimedia Foundation, Arizona State, Cienpies Design via Shutterstock

In this article