Samtaler med datamaskinen kan bli mer realistiske

2025 Forfatter: Abigail Brown | [email protected]. Sist endret: 2025-06-01 07:17

Key takeaways

Meta bruker AI for å lage programmer som kan uttrykke følelser i tale.
Bedriftens AI-team sa at det har gjort fremskritt når det gjelder å modellere uttrykksfulle vokaliseringer, som latter, gjesping, gråt og "spontan chatting" i sanntid.
AI blir også brukt til å forbedre forbedringer innen talegjenkjenning.

Du kan snart ha en mer naturlig chat med datamaskinen din, takket være kraften til kunstig intelligens (AI).

Meta sa at de har gjort betydelige fremskritt i arbeidet med å lage mer realistiske AI-genererte talesystemer. Selskapets AI-team sa at det har gjort fremskritt når det gjelder evnen til å modellere uttrykksfulle vokaliseringer, som latter, gjesping og gråt, i tillegg til "spontan chatting" i sanntid.

"I enhver gitt samtale utveksler folk proppfulle av nonverbale signaler, som intonasjoner, følelsesmessige uttrykk, pauser, aksenter, rytmer - som alle er viktige for menneskelig interaksjon," skrev teamet i det nylige blogginnlegget. "Men dagens AI-systemer klarer ikke å fange opp disse rike, uttrykksfulle signalene fordi de bare lærer fra skrevet tekst, som fanger opp det vi sier, men ikke hvordan vi sier det."

Smartere tale

I blogginnlegget sa Meta AIs team at de jobber med å overvinne begrensningene til tradisjonelle AI-systemer som ikke kan forstå ikke-verbale signaler i tale, som intonasjoner, emosjonelle uttrykk, pauser, aksenter og rytmer. Systemene holdes tilbake fordi de kun kan lære av skrevet tekst.

Men Metas arbeid skiller seg fra tidligere innsats fordi AI-modellene kan bruke prosesseringsmodeller for naturlig språk for å fange opp talespråkets fulle natur. Meta-forskere sier at de nye modellene kan tillate AI-systemer å formidle følelsene de ønsker å formidle - for eksempel kjedsomhet eller ironi.

"I nær fremtid vil vi fokusere på å bruke tekstløse teknikker for å bygge nyttige nedstrømsapplikasjoner uten å kreve verken ressurskrevende tekstetiketter eller automatiske talegjenkjenningssystemer (ASR), for eksempel svar på spørsmål (f.eks. "Hvordan er vær?"), skrev teamet i blogginnlegget. "Vi tror at prosodi i tale kan bidra til å analysere en setning bedre, noe som igjen letter forståelsen av intensjonen og forbedrer ytelsen til spørsmålssvar."

AI Powers Comprehension

Ikke bare blir datamaskiner bedre til å kommunisere mening, men AI blir også brukt til å styrke forbedringer innen talegjenkjenning.

Dataforskere har jobbet med datatalegjenkjenning siden minst 1952, da tre Bell Labs-forskere opprettet et system som kunne gjenkjenne enkelt numeriske sifre, sa teknologisjefen i AI Dynamics, Ryan Monsurate, i en e-post til Lifewire. På 1990-tallet var talegjenkjenningssystemer kommersielt tilgjengelige, men de hadde fortsatt en feilrate som var høy nok til å fraråde bruk utenfor svært spesifikke applikasjonsdomener som helsetjenester.

"Nå som dyplæringsmodeller har gjort det mulig for ensemblemodeller (som de fra Microsoft) å oppnå overmenneskelig ytelse ved talegjenkjenning, har vi teknologien til å muliggjøre høyttaleruavhengig verbal kommunikasjon med datamaskiner i stor skala," sa Monsurate. «Det neste trinnet vil inkludere å redusere kostnadene slik at alle som bruker Siri eller Googles AI-assistenter vil ha tilgang til dette nivået av talegjenkjenning.»

AI er nyttig for talegjenkjenning fordi det kan forbedres over tid gjennom læring, sa Ariel Utnik, inntektssjef og daglig leder ved AI-taleselskapet Verbit.ai, til Lifewire i et e-postintervju. For eksempel hevder Verbit at dens interne AI-teknologi oppdager og filtrerer ut bakgrunnsstøy og ekko og transkriberer høyttalere uavhengig av aksent for å generere detaljerte, profesjonelle transkripsjoner og bildetekster fra live og innspilt video og lyd.

Men Utnik sa at de fleste nåværende talegjenkjenningsplattformer bare er 75-80 % nøyaktige.

"AI vil aldri erstatte mennesker fullt ut, ettersom den personlige vurderingen fra transkriberere, korrekturlesere og redaktører er nødvendig for å sikre en endelig transkripsjon av høy kvalitet og topp nøyaktighet," la han til.

Bedre stemmegjenkjenning kan også brukes for å forhindre hackere, sa Sanjay Gupta, visepresident global leder for produkt- og bedriftsutvikling hos stemmegjenkjenningsselskapet Mitek Systems, i en e-post. Forskning indikerer at innen to år vil 20 prosent av alle vellykkede kontoovertakelsesangrep bruke syntetisk stemmeforsterkning, la han til.

"Dette betyr at etter hvert som dyp falsk teknologi blir mer sofistikert, må vi samtidig skape avansert sikkerhet som kan bekjempe disse taktikkene sammen med bilde- og videoforfalskninger," sa Gupta. "Bekjempelse av stemmeforfalskning krever teknologi for liveness-deteksjon, som er i stand til å skille mellom en levende stemme og en innspilt, syntetisk eller datamaskingenerert versjon av en stemme."

Korreksjon 2022-05-04: Rettet stavemåten til Ryan Monsurates navn i avsnitt 9.

Anbefalt:

Samtaler med datamaskinen kan bli mer realistiske

Innholdsfortegnelse:

Key takeaways

Smartere tale

AI Powers Comprehension

Anbefalt:

Unity Game Engine kan lage ekstremt realistiske mennesker

Ta opp samtaler på datamaskinen din med Audacity

Hvordan Amazon Alexa kan hjelpe deg med bedre samtaler

20 måter Siri kan hjelpe deg med å bli mer produktiv på

Hvordan programvare kan hjelpe deg med å unnslippe Zoom-samtaler

Slik setter du inn et SIM-kort i en smarttelefon

Hvordan får du Outlook Mail eller Hotmail i Windows Live Mail

Hvordan fikse Mfc80u.dll ikke funnet eller manglende feil

Beste designprogramvare for å lage utskrifts- eller nettprosjekter

Innsetting av fotnoter i et Word-dokument

De 5 beste Softbox-belysningssettene fra 2022

Hvordan bruke portrettmodus på FaceTime i iOS 15

Hvordan synkronisere musikk og video ved hjelp av Windows Media Player

Canon PowerShot SX70 HS anmeldelse: Et solid superzoomkamera

Discord lanserer ny PS4- og PS5-kontointegrering

Google legger til nye bildewidgeter for deling av minner

Hvordan slå sammen PowerPoints

Netflix lanserer sin egen følgeside, Tudum

Hvordan sjekke CPU-bruken på en Mac

Hvordan synkronisere Yahoo-kalender med iPhone-kalender