Introduction à la journée d’étude « Vox Machines », dir. Anthony Masure & Julien Drochon
Université Toulouse – Jean Jaurès & ESA Pyrénées, 10 décembre 2018
Apparu dans les objets grand public depuis une dizaine d’année, le récent succès des assistants vocaux s’appuie sur des promesses de fluidité et de transparence. Or ces notions oblitèrent les considérables moyens techniques nécessaires à leur fonctionnement, et le fait que les langues et les programmes sont le résultat de constructions sociales. Censées apporter plus de confort et de fluidité, les interfaces dites « naturelles » annihilent toute réflexivité car la médiation graphique entre le système technique et nos capacités de prise de décision a disparu.
« Le projet de recherche s’articulera autour d’un projet conceptuel développé par le designer graphique Pierre Di Sciullo, les Machines à phonèmes, qui permettront d’aborder le rapport de la parole et de sa transcription graphique. La mise en œuvre de ce projet se proposera d’explorer les […] pratiques [ouvertes] (open source, fablab) pour développer une réalisation associant design graphique et design d’interaction. Ce projet pratique s’enrichira d’apports théoriques (entretiens, conférences, traductions) issus de l’anthropologie (usages), théorie du design, sociologie, humanités numériques. Ceci permettra d’associer […] la production conjointe d’un dispositif graphique interactif, de [workshops], d’outils logiciels, et de textes [critiques]. »
— Julien Drochon, ESA Pyrénées, mars 2017
Pierre di Sciullo, « Typoéticatrac, les mots pour le faire », exposition au Bel Ordinaire (~Pau), 26 avril — 1er juillet 2017. Commissariat : Francesca Cozzolino
Projet d’une journée d’étude (non réalisée) à l’ESA Pyrénées en février 2018
→ Construction d’une communauté d’acteurs cohérents
Le sujet digital (2015), exemple de publication collective
— « A brief history of voice assistants », TheVerge.com × Wallmart, 2018
« A Timeline of Voice Assistant From 1961 to 2018 », Voicebot.ai
Téléphone (1876) : croquis par Alexander Graham Bell
Audrey (Bell Laboratories, 1952) : reconnaissance des chiffres 0 à 9
Shoebox (IBM, 1961) : reconnaissance de 16 mots,
dont les 9 chiffres, et opérations mathématiques simples
Shoebox (IBM, 1961)
ELIZA (Joseph Weizenbaum, 1964) : simulation textuelle d’un psychothérapeute
John R. Pierce, The Journal of the Acoustical Society of America, octobre 1969
Harpy (Darpa, 1976) : reconnaissance de + de 1000 mots, grammaire basique et message d’erreur « I don’t know what you said, please repeat »
Talking typewriter (IBM, 1986)
Speech recognition system (IBM Tangora, 1980s)
20 000 mots enregistrés dans un seul ordinateur personnel
« Nous pensions que c’était mal de demander à une machine d’imiter les gens. Après tout, si une machine doit se déplacer, elle le fait avec des roues, pas en marchant. Si une machine doit voler, elle le fait comme un avion, pas en battant des ailes. Plutôt que d’étudier de manière exhaustive comment les gens écoutent et comprennent la parole, nous voulions trouver la façon naturelle [natural way] de le faire faire par la machine. »
— Fred Jelinek, THINK, 1987
Approche basée sur les données et la modélisation statistique
NaturallySpeaking (Dragon, 1997) : transcription de 100 mots par minute
Watson (IBM, 2011) VS des champions du quizz Jeopardy!
Apple Siri (2011), Google Now (2012), Microsoft Cortana (2013)
Cortana (Microsoft, 2013)
« Cortana Skills », 2018
Alexa (Amazon, 2014)
Alexa (Amazon, 2014)
Alexa (Amazon, 2014)
Home (Google, 2016)
Home (« Made by Google », 2016)
HomePod (Apple, 2018)
HomePod (Apple, 2018)
Q35 II (Bose, 2018) : Google Assistant est accessible depuis un bouton dédié
Frames (Bose, 2018) : capteur de mouvement à 9 axes relié à l’enceinte intégrée
Portal (Facebook, 2018) : caméra avec suivi de mouvements
Portal (Facebook, 2018) : intégration de Amazon Alexa
Portal (Facebook, 2018) : des « portails » vers la famille
« Cortana Marketing and usage guidelines », 2015
Snips (2017), « Using Voice to Make Technology Disappear » & Privacy by Design
Speech to Text (IBM Watson cloud, 2018) : voice as a service
CommonVoice (Mozilla, 2018) : collecter de manière participative
Voicebot.ai, site d’actualités sur les assistants vocaux
Les assistants vocaux empruntent dans leur version domestique les apparences de la transparence moderniste. Devant cette neutralité apparente et la simplification ultime de l’ergonomie (moins d’interface visuelle pour heurter la fluidité d’utilisation) l’utilisateur est amené à délaisser son sens critique.
→ Comment l’intervention des designers peut-elle permettre l’intelligibilité de ces techniques ?
Crispin Reedy, « Where's Jarvis? The Future of Voice Recognition », 2016
Kate Crawford, Vladan Joler, « Anatomy of an AI System » [Amazon Echo], 2018
La facilité d’utilisation des assistants vocaux masque de nombreux déterminismes dans le calcul des résultats des requêtes, qui se limitent souvent à un seul résultat dont le choix n’est jamais neutre. De plus, de nombreux cas interrogent sur la gestion de la vie privée et des données personnelles. Quelle ouverture des assistants peut-on envisager ?
→ Quelle « privacy by design » voire « attention by design » élaborer ?
Web heatmap & analytics : l’économie des gestes et du regard
Adobe Voice Analytics, 2017
Les usages actuels des assistants vocaux sont très stéréotypés voire comportementaux : météo, scores de matchs sportifs, commande d’objet ou de nourriture, etc.
→ Comment subvertir (hacker) ces derniers ? Que peut-on inventer dans d’autres domaines actuellements peu couverts (création, fiction, accessibilité, recherche, etc.) ?
« Assistants vocaux : la menace du hacking à ultrasons », 2017
« Man hacks Alexa into singing fish robot, terror ensues », 2016
« Burger King fait parler Google Home, puis pollue Wikipedia », 2017
« Google et Disney s’associent pour des effets sonores sur Google Home », 2018
Les assistants vocaux sont la plupart du temps montrés isolément, séparés des objets et des espaces dans lesquels ils s’insèrent.
→ Comment les intégrer et les repenser au sein d’un système d’objets, au-delà des impasses de la domotique ?
Jarvis / Iron Man
« Zuckerberg lives superhero fantasy, builds his Jarvis after a year of coding »
Dans les usages actuels, les interfaces vocales tendent à exclure complètement toute approche visuelle. La voix, celle de l’usager comme celle de l’assistant, devient le seul élément sensible de l’interface.
→ Quelles possibilités existe-t-il dans les complémentarités d’une interface visuelle et d’une interface vocale ?
« What If You Had An IA for Photo Editing? », Adobe Sensei, 2017
« Rencontres du troisième type. Écrire avec des images », ANRT Nancy, 2018
Raphaël Bastide, Unilist
« Integrating emojis in a font », Black Foundry, 2017
Fonte variable Vesterbro (Black Foundry), 2017
v-fonts.com (Nick Sherman), 2018
« Antique Gothic sound sensitive specimen », Prototypo, 2018
La perception vocale représente une partie infime des possibilités offertes par le sonore. Les voix proposées par les assistants vocaux restent une imitation synthétique de la voix humaine, dans la prosodie, dans le ton.
→ Quelle variété dans les intonations, les silences, les hésitations peut-elle être autorisée dès lors que la vocalisation automatique se permet l’indécision ?
En oubliant le mimétisme avec la voix humaine, l’intervention du designer sur les interfaces vocales pourrait être conséquemment élargie, accordant un espace inattendu d’exercice du design sonore.
→ Que reste-t-il d’un assistant vocal qui a perdu sa voix ?
—
Présentation conçue avec Reveal.js, MIT License
Crédits typo : IBM Plex, Mike Abbink / Bold Monday, 2018
Image de début : Dave Whyte, 2014
Image de fin : Olli Meier et Bernd Volmer, TYPOLabs, 2018