Hvordan AI kunne gjøre datamaskintale mer naturlig

Innholdsfortegnelse:

Hvordan AI kunne gjøre datamaskintale mer naturlig
Hvordan AI kunne gjøre datamaskintale mer naturlig
Anonim

Key takeaways

  • Bedrifter kappløper for å finne måter å få datagenerert tale til å høres mer realistisk ut.
  • NVIDIA avduket nylig verktøy som kan fange opp lyden av naturlig tale ved å la deg trene en AI med din egen stemme.
  • Intonasjon, følelser og musikalitet er funksjonene som datamaskinstemmer fortsatt mangler, sier en ekspert.
Image
Image

Datamaskingenerert tale kan snart høres mye mer menneskelig ut.

Datamaskindelsprodusenten NVIDIA avduket nylig verktøy som kan fange opp lyden av naturlig tale ved å la deg trene en AI med stemmen din. Programvaren kan også levere en høyttalers ord ved å bruke en annen persons stemme. Det er en del av et voksende løft for å gjøre datatale mer realistisk.

"Avansert stemme AI-teknologi lar brukere snakke naturlig, kombinerer mange forespørsler i en enkelt setning og eliminerer behovet for å gjenta detaljer fra den opprinnelige spørringen konstant," Michael Zagorsek, administrerende direktør for talegjenkjenningsselskapet SoundHound, fort alte Lifewire i et e-postintervju.

"Tillegget av flere språk, nå tilgjengelig på de fleste stemme-AI-plattformer, gjør digitale stemmeassistenter tilgjengelige i flere geografier og for flere populasjoner," la han til.

Robospeech Rising

Amazons Alexa og Apples Siri høres mye bedre ut enn datatale fra enda et tiår tilbake, men de vil ikke forveksles med autentiske menneskestemmer når som helst.

For å få kunstig tale til å høres mer naturlig ut, utviklet NVIDIAs tekst-til-tale-forskningsteam en RAD-TTS-modell. Systemet lar enkeltpersoner lære en tekst-til-tale-modell (TTS) med stemmen sin, inkludert tempo, tonalitet, klangfarge og andre faktorer.

Bedriften brukte sin nye modell til å bygge mer samtale-lydende stemmefortelling for sin I Am AI-videoserie.

"Med dette grensesnittet kunne videoprodusenten vår ta opp seg selv mens han leste videomanuset og deretter bruke AI-modellen til å konvertere talen sin til den kvinnelige fortellerstemmen. Ved å bruke denne grunnfortellingen kunne produsenten dirigere AI-en som en stemmeskuespiller tilpasser den syntetiserte talen for å fremheve spesifikke ord og modifiserer tempoet i fortellingen for å bedre uttrykke videoens tone," skrev NVIDIA på sin nettside.

Harder Than It Sounds

Å få datagenerert tale til å høres naturlig ut er et vanskelig problem, sier eksperter.

"Du må spille inn hundrevis av timer med noens stemme for å lage en datamaskinversjon av den," sa Nazim Ragimov, administrerende direktør for tekst-til-tale-programvareselskapet Kukarella, til Lifewire i et e-postintervju. «Og innspillingen skal være av høy kvalitet, spilt inn i et profesjonelt studio. Jo flere timer med kvalitetstale som lastes inn og behandles, desto bedre blir resultatet."

Tekst-til-tale kan brukes i spill, for å hjelpe personer med stemmevansker, eller for å hjelpe brukere med å oversette mellom språk med sin egen stemme.

Intonasjon, følelser og musikalitet er funksjonene som datamaskinstemmer fortsatt mangler, sa Ragimov.

Hvis AI kan legge til disse manglende lenkene, vil datamaskingenerert tale være «uskillelig fra stemmene til ekte skuespillere», la han til. "Det er et arbeid som pågår. Andre stemmer vil kunne konkurrere med radioverter. Snart vil du se stemmer som kan synge og lese lydbøker."

Taleteknologi blir mer populær i et bredt spekter av virksomheter.

"Bilindustrien har nylig tatt i bruk stemme-AI som en måte å skape tryggere og mer tilkoblede kjøreopplevelser," sa Zagorsek.

"Siden den gang har stemmeassistenter blitt stadig mer allestedsnærværende ettersom merkevarer søker måter å forbedre kundeopplevelsene på og møte etterspørselen etter enklere, tryggere, mer praktiske, effektive og hygieniske metoder for å samhandle med produktene og tjenestene deres."

Vanligvis konverterer stemme-AI spørringer til svar i en totrinnsprosess som begynner med å transkribere tale til tekst ved hjelp av automatisk talegjenkjenning (ASR) og deretter mate teksten inn i en naturlig språkforståelsesmodell (NLU).

Image
Image

SoundHounds tilnærming kombinerer disse to trinnene i én prosess for å spore tale i sanntid. Selskapet hevder at denne teknikken lar stemmeassistenter forstå betydningen av brukerforespørsler, selv før personen er ferdig med å snakke.

Fremtidige fremskritt innen datatale, inkludert tilgjengeligheten av en rekke tilkoblings alternativer fra kun innebygd (ingen skytilkobling nødvendig) til hybrid (innebygd pluss sky) og bare sky "vil gi flere valgmuligheter til selskaper på tvers av bransjer når det gjelder kostnader, personvern og tilgjengelighet av prosessorkraft," sa Zagoresk.

NVIDIA sa at deres nye AI-modeller går utover voiceover-arbeid.

"Tekst-til-tale kan brukes i spill, for å hjelpe personer med stemmevansker, eller for å hjelpe brukere med å oversette mellom språk med deres egen stemme," skrev selskapet. "Den kan til og med gjenskape forestillingene til ikoniske sangere, og matche ikke bare melodien til en sang, men også det emosjonelle uttrykket bak vokalen."

Anbefalt: