Dans des environnements complexes, les humains peuvent mieux comprendre le sens de la parole que l’IA, car nous utilisons non seulement nos oreilles mais aussi nos yeux.
Par exemple, nous voyons la bouche de quelqu'un bouger et pouvons savoir intuitivement que le son que nous entendons doit provenir de cette personne.
Meta AI travaille sur un nouveau système de dialogue sur l'IA, qui doit apprendre à l'IA à reconnaître également les corrélations subtiles entre ce qu'elle voit et ce qu'elle entend dans une conversation.
VisualVoice apprend de la même manière que les humains apprennent à maîtriser de nouvelles compétences, permettant la séparation audiovisuelle de la parole en apprenant des signaux visuels et auditifs à partir de vidéos non étiquetées.
Pour les machines, cela crée une meilleure perception, tandis que la perception humaine s’améliore.
Imaginez pouvoir participer à des réunions de groupe dans le métaverse avec des collègues du monde entier, rejoindre des réunions de petits groupes alors qu'ils se déplacent dans l'espace virtuel, au cours desquelles les réverbérations sonores et les timbres de la scène s'ajustent en fonction de l'environnement.
Autrement dit, il peut obtenir des informations audio, vidéo et textuelles en même temps et dispose d'un modèle de compréhension environnementale plus riche, permettant aux utilisateurs d'avoir une expérience sonore « très wow ».
Heure de publication : 20 juillet 2022