
In komplekse omgewings kan mense die betekenis van spraak beter verstaan as AI, omdat ons nie net ons ore nie, maar ook ons oë gebruik.
Ons sien byvoorbeeld iemand se mond beweeg en weet miskien intuïtief dat die geluid wat ons hoor van daardie persoon af moet kom.
Meta AI werk aan 'n nuwe AI -dialoogstelsel, naamlik om AI te leer om ook te leer om subtiele korrelasies te herken tussen wat dit in 'n gesprek sien en hoor.
VisualVoice leer op 'n soortgelyke manier as hoe mense leer om nuwe vaardighede te bemeester, wat klank-visuele spraakskeiding moontlik maak deur visuele en gehoorlope uit ongemerkte video's te leer.
Vir masjiene skep dit beter persepsie, terwyl die menslike persepsie verbeter.
Stel jou voor dat jy aan groepsvergaderings in die Metaverse met kollegas van oor die hele wêreld kan deelneem, en by kleiner groepbyeenkomste aansluit terwyl hulle deur die virtuele ruimte beweeg, waartydens die klank en timbres op die toneel volgens die omgewing volgens die omgewing aanpak.
Dit wil sê, dit kan terselfdertyd klank-, video- en teksinligting verkry, en het 'n ryker omgewingsbegripsmodel, waardeur gebruikers 'n 'baie wow' klankervaring kan hê.
Postyd: Jul-20-2022