Samtaler med datamaskinen kan bli mer realistiske

Innholdsfortegnelse:

Samtaler med datamaskinen kan bli mer realistiske
Samtaler med datamaskinen kan bli mer realistiske
Anonim

Key takeaways

  • Meta bruker AI for å lage programmer som kan uttrykke følelser i tale.
  • Bedriftens AI-team sa at det har gjort fremskritt når det gjelder å modellere uttrykksfulle vokaliseringer, som latter, gjesping, gråt og "spontan chatting" i sanntid.
  • AI blir også brukt til å forbedre forbedringer innen talegjenkjenning.
Image
Image

Du kan snart ha en mer naturlig chat med datamaskinen din, takket være kraften til kunstig intelligens (AI).

Meta sa at de har gjort betydelige fremskritt i arbeidet med å lage mer realistiske AI-genererte talesystemer. Selskapets AI-team sa at det har gjort fremskritt når det gjelder evnen til å modellere uttrykksfulle vokaliseringer, som latter, gjesping og gråt, i tillegg til "spontan chatting" i sanntid.

"I enhver gitt samtale utveksler folk proppfulle av nonverbale signaler, som intonasjoner, følelsesmessige uttrykk, pauser, aksenter, rytmer - som alle er viktige for menneskelig interaksjon," skrev teamet i det nylige blogginnlegget. "Men dagens AI-systemer klarer ikke å fange opp disse rike, uttrykksfulle signalene fordi de bare lærer fra skrevet tekst, som fanger opp det vi sier, men ikke hvordan vi sier det."

Smartere tale

I blogginnlegget sa Meta AIs team at de jobber med å overvinne begrensningene til tradisjonelle AI-systemer som ikke kan forstå ikke-verbale signaler i tale, som intonasjoner, emosjonelle uttrykk, pauser, aksenter og rytmer. Systemene holdes tilbake fordi de kun kan lære av skrevet tekst.

Men Metas arbeid skiller seg fra tidligere innsats fordi AI-modellene kan bruke prosesseringsmodeller for naturlig språk for å fange opp talespråkets fulle natur. Meta-forskere sier at de nye modellene kan tillate AI-systemer å formidle følelsene de ønsker å formidle – for eksempel kjedsomhet eller ironi.

"I nær fremtid vil vi fokusere på å bruke tekstløse teknikker for å bygge nyttige nedstrømsapplikasjoner uten å kreve verken ressurskrevende tekstetiketter eller automatiske talegjenkjenningssystemer (ASR), for eksempel svar på spørsmål (f.eks. "Hvordan er vær?"), skrev teamet i blogginnlegget. "Vi tror at prosodi i tale kan bidra til å analysere en setning bedre, noe som igjen letter forståelsen av intensjonen og forbedrer ytelsen til spørsmålssvar."

AI Powers Comprehension

Ikke bare blir datamaskiner bedre til å kommunisere mening, men AI blir også brukt til å styrke forbedringer innen talegjenkjenning.

Dataforskere har jobbet med datatalegjenkjenning siden minst 1952, da tre Bell Labs-forskere opprettet et system som kunne gjenkjenne enkelt numeriske sifre, sa teknologisjefen i AI Dynamics, Ryan Monsurate, i en e-post til Lifewire. På 1990-tallet var talegjenkjenningssystemer kommersielt tilgjengelige, men de hadde fortsatt en feilrate som var høy nok til å fraråde bruk utenfor svært spesifikke applikasjonsdomener som helsetjenester.

"Nå som dyplæringsmodeller har gjort det mulig for ensemblemodeller (som de fra Microsoft) å oppnå overmenneskelig ytelse ved talegjenkjenning, har vi teknologien til å muliggjøre høyttaleruavhengig verbal kommunikasjon med datamaskiner i stor skala," sa Monsurate. «Det neste trinnet vil inkludere å redusere kostnadene slik at alle som bruker Siri eller Googles AI-assistenter vil ha tilgang til dette nivået av talegjenkjenning.»

Image
Image

AI er nyttig for talegjenkjenning fordi det kan forbedres over tid gjennom læring, sa Ariel Utnik, inntektssjef og daglig leder ved AI-taleselskapet Verbit.ai, til Lifewire i et e-postintervju. For eksempel hevder Verbit at dens interne AI-teknologi oppdager og filtrerer ut bakgrunnsstøy og ekko og transkriberer høyttalere uavhengig av aksent for å generere detaljerte, profesjonelle transkripsjoner og bildetekster fra live og innspilt video og lyd.

Men Utnik sa at de fleste nåværende talegjenkjenningsplattformer bare er 75–80 % nøyaktige.

"AI vil aldri erstatte mennesker fullt ut, ettersom den personlige vurderingen fra transkriberere, korrekturlesere og redaktører er nødvendig for å sikre en endelig transkripsjon av høy kvalitet og topp nøyaktighet," la han til.

Bedre stemmegjenkjenning kan også brukes for å forhindre hackere, sa Sanjay Gupta, visepresident global leder for produkt- og bedriftsutvikling hos stemmegjenkjenningsselskapet Mitek Systems, i en e-post. Forskning indikerer at innen to år vil 20 prosent av alle vellykkede kontoovertakelsesangrep bruke syntetisk stemmeforsterkning, la han til.

"Dette betyr at etter hvert som dyp falsk teknologi blir mer sofistikert, må vi samtidig skape avansert sikkerhet som kan bekjempe disse taktikkene sammen med bilde- og videoforfalskninger," sa Gupta. "Bekjempelse av stemmeforfalskning krever teknologi for liveness-deteksjon, som er i stand til å skille mellom en levende stemme og en innspilt, syntetisk eller datamaskingenerert versjon av en stemme."

Korreksjon 2022-05-04: Rettet stavemåten til Ryan Monsurates navn i avsnitt 9.

Anbefalt: