Les investisseurs sont enthousiasmés par l’IA vocale. C'est ici qu'ils voient le potentiel le plus inexploité.

La voix est en passe de devenir le nouveau champ de bataille de l’IA.

Des assistants virtuels dynamiques aux outils de synthèse vocale, la technologie a décollé au cours de la dernière année.

Bien que la technologie vocale de l’IA ne soit pas nouvelle, les outils sont rapidement devenus plus sophistiqués, ce qui a favorisé leur adoption depuis les centres d’appels jusqu’aux agences de recrutement.

Ses cas d’utilisation sont vastes, depuis les transcriptions audio en temps réel jusqu’à la génération de voix synthétiques à partir d’invites textuelles.

Les investisseurs à la recherche de la prochaine opportunité sur le marché hautement concurrentiel de l’IA ont jeté leur chéquier derrière les startups. Selon les données de PitchBook, les startups développant une technologie d’IA vocale ont levé plus de 398 millions de dollars en financement de capital-risque en 2024.

PolyAI, basé à Londres, qui a développé des assistants vocaux pour les centres d’appels, a obtenu 50 millions de dollars lors d’un cycle de financement d’Hedosophia. ElevenLabs, dont le siège est à Londres et à New York, qui a développé une technologie de clonage vocal, a levé 100 millions de dollars en janvier 2024 – et devrait lever 200 millions de dollars supplémentaires, a rapporté pour la première fois Trading Insider.

« Les avancées récentes dans le traitement de la parole en temps réel ont ouvert la voie à de nouveaux cas d’utilisation, notamment les assistants virtuels, le support client et la productivité vocale », a déclaré Sivesh Sukumar, investisseur dans la société de capital-risque Balderton. « Des sociétés comme ElevenLabs et OpenAI sont à l’avant-garde dans ce domaine, ElevenLabs publiant une API en temps réel qui devrait favoriser une adoption plus poussée. »

L’IA vocale est un espace relativement naissant, il n’y a donc pas encore d’opérateur historique établi, mais elle suscite l’enthousiasme des investisseurs pour les opportunités inexploitées du secteur, a ajouté Sukumar.

Un écosystème en expansion

Les startups identifient rapidement comment adapter la technologie vocale à une multitude de besoins des entreprises et des consommateurs. Et comme l’IA agentique est un sujet brûlant pour les PDG, son chevauchement avec la technologie vocale pourrait receler un fort potentiel.

PlayAI, une startup qui développe une plateforme d’IA pour les modèles de synthèse vocale et les agents vocaux IA, a levé 21 millions de dollars de financement de démarrage en novembre.

« Nous avons constaté un intérêt croissant pour la création d’agents vocaux, auxquels un humain peut parler comme s’il s’agissait d’un autre humain », a déclaré Hammad Syed, cofondateur de PlayAI. « L’IA vocale se généralise et constituera une interface clé dans la façon dont les gens interagissent avec la technologie. Les investisseurs réalisent certainement cette opportunité », a-t-il ajouté.

Les sociétés de capital-risque qui parcourent l’écosystème pour faire leur prochain grand pari considèrent désormais l’IA vocale comme une pile technologique, a déclaré Steve Jang, fondateur et associé directeur de Kindred Ventures, qui a également soutenu PlayAI. La thèse d’investissement de la société est de soutenir les startups « avec plusieurs couches avec de nombreux cas d’utilisation dans les domaines du consommateur, de l’entreprise et de la créativité ».

« Premièrement, il existe des modèles spécialisés et fondamentaux. Deuxièmement, il existe des services et des outils d’infrastructure qui offrent un accès et une intégration à ces modèles. Et puis, et peut-être le plus important, il y a le vaste espace d’application vertical », a-t-il déclaré à BI.

Le secteur est également attractif pour les investisseurs car la voix est une catégorie facile à exploiter. « Vous pouvez le fixer en fonction du résultat, donc c’est assez facile à monétiser », a déclaré Jonathan Userovici, associé général de la société de capital-risque Headline. « C’est pourquoi vous avez autant de revenus : il est assez facile d’obtenir un retour sur investissement, surtout si vous remplacez un humain effectuant ce travail. »

L’appétit des consommateurs pour l’IA vocale est également monté en flèche. Alors que de plus en plus d’utilisateurs préfèrent accéder aux informations via des formats audio tels que les podcasts, Sukumar a souligné la demande croissante des consommateurs en matière de commande vocale et d’interfaces audio. Il a créé PersuAIsion, une plateforme d’IA vocale qui permet aux utilisateurs de s’entraîner à des conversations réelles – des entretiens d’embauche aux premiers rendez-vous – parce qu’il a vu la possibilité pour la voix de répondre à ces besoins des consommateurs.

« Si OpenAI parvient à capturer les agents vocaux des consommateurs, ils seront ce que Siri était censé être », a-t-il déclaré. « Je pense qu’il y aura beaucoup plus d’interfaces avec les appareils personnels, et qu’il y aura simplement une meilleure expérience pour les consommateurs du commerce électronique à cet égard. »

Les laboratoires frontières rattrapent leur retard

Malgré sa popularité croissante, l’IA vocale ne semble pas encore avoir un poids lourd établi. Cela pourrait en partie être dû au fait que les laboratoires frontaliers sont restés en grande partie à l’écart de l’espace, peut-être en raison de la crainte qu’une mauvaise utilisation des capacités de génération vocale puisse entraîner une réaction négative potentielle, selon le rapport 2024 State of AI d’Air Street Capital.

« Malgré la récupération d’énormes quantités de données audio et vidéo, les laboratoires pionniers ont mis du temps à lancer des produits de synthèse vocale », a déclaré Nathan Benaich, fondateur et associé général d’Air Street Capital. Il a souligné le mode vocal avancé d’OpenAI, qui a été reporté à plusieurs reprises, et le NotebookLM de Google, qui « est relativement verrouillé ».

Les experts en IA avaient tiré la sonnette d’alarme sur la possible montée des deepfakes au cours d’une année marquée par des élections mondiales – mais cela n’a finalement pas été le cas.

« Selon toute vraisemblance, les laboratoires ont tenu à éviter de se laisser entraîner dans la panique suscitée par les deepfakes qui accompagnent souvent les élections majeures. Je pense qu’il est inévitable qu’ils joueront davantage dans ce domaine, simplement parce que l’opportunité commerciale potentielle est si grande », a déclaré Benaich.

Les Big Tech pourraient lentement s’orienter vers cette tendance. Les projets d’Amazon visant à étendre ses offres d’assistant vocal via Alexa ont été retardés jusqu’en 2025, et Apple a récemment renforcé sa fonctionnalité Siri en ajoutant des fonctionnalités ChatGPT.

Néanmoins, Benaich a souligné qu’il ne sera pas une tâche facile pour une seule entreprise de remporter la couronne. « Remplacer des entreprises comme ElevenLabs, qui bénéficient déjà d’une adoption généralisée et optimisent leurs outils pour les utilisateurs professionnels depuis des années maintenant, pourrait s’avérer difficile », a-t-il déclaré.