jTdtS NRFAU l8BRT bCKaP L'IA résout le « problème des cocktails » et se révèle utile devant les tribunaux - Age d'or Services Le Mans ebURN z2q6u NcoLV czYkU QJdnz xCn04

L'IA résout le « problème des cocktails » et se révèle utile devant les tribunaux

Getty Images Quatre femmes d'une trentaine d'années discutent avec un verre à la mainGetty Images

En groupe, les gens filtrent les conversations autour d'eux – et maintenant la technologie peut faire la même chose

C'est le problème récurrent des cocktails : se tenir dans une salle pleine de monde, un verre à la main, en essayant d'entendre ce que dit votre invité.

En fait, les êtres humains sont remarquablement doués pour tenir une conversation avec une personne tout en filtrant les voix concurrentes.

Cependant, aussi surprenant que cela puisse paraître, il s’agit d’une compétence que la technologie n’a pas été en mesure de reproduire jusqu’à récemment.

Et cela est important lorsqu'il s'agit d'utiliser des preuves audio dans les affaires judiciaires. Les voix en arrière-plan peuvent rendre difficile de savoir avec certitude qui parle et ce qui est dit, ce qui peut rendre les enregistrements inutiles.

L'ingénieur électricien Keith McElveen, fondateur et directeur technique de Wave Sciences, s'est intéressé au problème alors qu'il travaillait pour le gouvernement américain sur une affaire de crimes de guerre.

« Nous cherchions à savoir qui avait ordonné le massacre des civils. Parmi les preuves, on trouvait des enregistrements de plusieurs voix parlant toutes en même temps. C'est là que j'ai compris ce qu'était le « problème des cocktails », dit-il.

« J'avais réussi à supprimer des bruits tels que les bruits d'automobile, de climatisation ou de ventilateur de la parole, mais lorsque j'ai commencé à essayer de supprimer la parole de la parole, cela s'est avéré non seulement être un problème très difficile, mais aussi l'un des problèmes classiques et difficiles de l'acoustique.

« Les sons rebondissent dans une pièce, et c'est mathématiquement horrible à résoudre. »

Paul Cheney Keith McElveen se tient devant un tableau blanc tenant un marqueurPaul Cheney

Keith McElveen a fondé Wave Sciences en 2008 pour se concentrer sur le « problème des cocktails »

La réponse, dit-il, était d’utiliser l’IA pour essayer d’identifier et d’éliminer tous les sons concurrents en fonction de leur provenance d’origine dans une pièce.

Cela ne concerne pas seulement les autres personnes qui parlent : il existe également une quantité importante d'interférences provenant de la façon dont les sons sont réfléchis dans une pièce, la voix de l'orateur ciblé étant entendue à la fois directement et indirectement.

Dans un anéchoïque parfait chambre – une pièce totalement exempte d'échos – un microphone par haut-parleur suffirait à capter ce que chacun dit ; mais dans une vraie pièce, le problème nécessite également un microphone pour chaque son réfléchi.

M. McElveen a fondé Wave Sciences en 2009, dans l'espoir de développer une technologie capable de séparer les voix qui se chevauchent. Au départ, l'entreprise utilisait un grand nombre de microphones dans ce que l'on appelle la formation de faisceaux en réseau.

Cependant, les retours des partenaires commerciaux potentiels ont indiqué que le système nécessitait trop de microphones par rapport au coût impliqué pour donner de bons résultats dans de nombreuses situations – et ne fonctionnerait pas du tout dans de nombreuses autres.

« Le refrain commun était que si nous pouvions trouver une solution qui réponde à ces préoccupations, ils seraient très intéressés », explique M. McElveen.

Et il ajoute : « Nous savions qu’il devait y avoir une solution, car on peut le faire avec seulement deux oreilles. »

L'entreprise a finalement résolu le problème après 10 ans de recherche financée en interne et a déposé une demande de brevet en septembre 2019.

Ondes sonores sur l'écran de l'ordinateur de Keith McElveenKeith McElveen

Il a fallu 10 ans à Wave Sciences pour résoudre le « problème des cocktails »

Ils ont mis au point une IA capable d’analyser la manière dont le son rebondit dans une pièce avant d’atteindre le microphone ou l’oreille.

« Nous captons le son lorsqu'il arrive à chaque microphone, revenons en arrière pour déterminer d'où il vient, puis, en substance, nous supprimons tout son qui ne pourrait pas provenir de l'endroit où la personne est assise », explique M. McElveen.

L’effet est comparable à certains égards à celui d’un appareil photo qui fait la mise au point sur un sujet et floute le premier plan et l’arrière-plan.

« Les résultats ne sont pas d'une clarté exceptionnelle lorsque vous ne pouvez utiliser qu'un enregistrement très bruyant pour apprendre, mais ils sont néanmoins époustouflants. »

Cette technologie a été utilisée pour la première fois dans le monde réel à des fins médico-légales dans une affaire de meurtre aux États-Unis, où les preuves qu'elle a pu fournir se sont révélées essentielles pour les condamnations.

Après l'arrestation de deux tueurs à gages pour le meurtre d'un homme, le FBI a voulu prouver qu'ils avaient été engagés par une famille en conflit pour la garde de leurs enfants. Le FBI a réussi à faire croire à la famille qu'elle était victime de chantage pour leur implication, puis s'est assis pour voir la réaction de la famille.

Bien que les SMS et les appels téléphoniques soient relativement faciles à accéder pour le FBI, les contacts en personne Les réunions dans deux restaurants étaient une autre affaire. Mais le tribunal a autorisé l'utilisation de l'algorithme de Wave Sciences, ce qui signifie que l'enregistrement audio est passé d'un élément de preuve irrecevable à un élément de preuve essentiel.

Depuis, d'autres laboratoires gouvernementaux, notamment britanniques, ont soumis cette technologie à une batterie de tests. L'entreprise commercialise désormais cette technologie auprès de l'armée américaine, qui l'utilise pour analyser les signaux sonars.

Cela pourrait également avoir des applications dans les négociations d'otages et les scénarios de suicide, dit M. McElveen, pour s'assurer que les deux parties d'une conversation puissent être entendues – et pas seulement le négociateur avec un mégaphone.

À la fin de l’année dernière, la société a lancé une application logicielle utilisant son algorithme d’apprentissage à l’intention des laboratoires gouvernementaux effectuant des analyses audio et acoustiques.

Getty Images Une jeune mère et son jeune fils parlent à un haut-parleur intelligent posé sur la table devant euxGetty Images

À terme, Wave souhaite lancer des versions de son produit destinées à être utilisées dans des enceintes intelligentes

À terme, elle vise à introduire des versions personnalisées de son produit pour une utilisation dans des kits d'enregistrement audio, des interfaces vocales pour voitures, des haut-parleurs intelligents, la réalité augmentée et virtuelle, des sonars et des appareils auditifs.

Ainsi, par exemple, si vous parlez à votre voiture ou à votre haut-parleur intelligent, peu importe qu'il y ait beaucoup de bruit autour de vous, l'appareil sera toujours capable de comprendre ce que vous dites.

L’IA est déjà utilisée dans d’autres domaines de la médecine légale, selon Terri Armenta, éducatrice en médecine légale de la Forensic Science Academy.

“ML [machine learning] « Les modèles analysent les schémas vocaux pour déterminer l'identité des locuteurs, un processus particulièrement utile dans les enquêtes criminelles où les preuves vocales doivent être authentifiées », dit-elle.

« De plus, les outils d’IA peuvent détecter les manipulations ou les altérations dans les enregistrements audio, garantissant ainsi l’intégrité des preuves présentées au tribunal. »

L’IA a également fait son chemin dans d’autres aspects de l’analyse audio.

Bosch Samarjit Das tenant le Bosch SoundSeeBosch

Samarjit Das avec le SoundSee qui peut prédire le dysfonctionnement d'une voiture avant qu'il ne se produise

Bosch dispose d'une technologie appelée SoundSee, qui utilise des algorithmes de traitement du signal audio pour analyser, par exemple, le son d'un moteur afin de prédire un dysfonctionnement avant qu'il ne se produise.

« Les capacités traditionnelles de traitement du signal audio ne permettent pas de comprendre le son comme le font les humains », explique le Dr Samarjit Das, directeur de la recherche et de la technologie chez Bosch USA.

« L'IA audio permet une compréhension plus approfondie et une interprétation sémantique du son des choses qui nous entourent, mieux que jamais auparavant – par exemple, les sons environnementaux ou les signaux sonores émanant de machines. »

Des tests plus récents de l’algorithme Wave Sciences ont montré que, même avec seulement deux microphones, la technologie peut fonctionner aussi bien que l’oreille humaine – mieux, lorsque davantage de microphones sont ajoutés.

Et ils ont également révélé autre chose.

« Les mathématiques de tous nos tests présentent des similitudes remarquables avec l'audition humaine. Il existe de petites bizarreries dans ce que notre algorithme peut faire et dans la précision avec laquelle il peut le faire, qui sont étonnamment similaires à certaines des bizarreries qui existent dans l'audition humaine », explique McElveen.

« Nous soupçonnons que le cerveau humain utilise peut-être les mêmes mathématiques – qu’en résolvant le problème du cocktail, nous sommes peut-être tombés sur ce qui se passe réellement dans le cerveau. »

Leave a Comment

td5eq giXuE 7BnEl KHrGp 2l6Ap MmlOy 7VnIw aZj3C 9iPct