Snart vet du kanskje ikke at du snakker med en datamaskin

Innholdsfortegnelse:

Snart vet du kanskje ikke at du snakker med en datamaskin
Snart vet du kanskje ikke at du snakker med en datamaskin
Anonim

Key takeaways

  • Dagen nærmer seg med stormskritt da du ikke vil kunne skille datagenerert tale fra ekte vare.
  • Google avduket nylig LaMDA, en modell som kan tillate mer naturlige samtaler.
  • Å produsere menneskelignende tale krever også enorme mengder prosessorkraft.
Image
Image

Akkurat nå er det lett å se når du snakker med en datamaskin, men det kan snart endre seg takket være nyere fremskritt innen AI.

Google avduket nylig LaMDA, en eksperimentell modell som selskapet hevder kan øke evnen til AI-assistentene til samtale og gi mer naturlige samtaler. LaMDA har som mål å til slutt samtale norm alt om nesten hva som helst uten noen form for forutgående opplæring.

Det er et av et økende antall AI-prosjekter som kan få deg til å lure på om du snakker med et menneske.

"Mitt estimat er at i løpet av de neste 12 månedene vil brukere begynne å bli eksponert for og bli vant til disse nye, mer emosjonelle stemmene," James Kaplan, administrerende direktør i MeetKai, en samtalebasert AI virtuell stemmeassistent og søk motor, sa i et e-postintervju.

"Når dette skjer, vil dagens syntetiserte tale høres ut for brukerne slik talen fra tidlig på 2000-tallet høres ut for oss i dag."

taleassistenter med karakter

Googles LaMDA er bygget på Transformer, en nevrale nettverksarkitektur oppfunnet av Google Research. I motsetning til andre språkmodeller ble Googles LaMDA opplært i ekte dialog.

En del av utfordringen med å lage naturlig klingende AI-tale er samtalens åpne natur, skrev Googles Eli Collins i et blogginnlegg.

Image
Image

"En prat med en venn om et TV-program kan utvikle seg til en diskusjon om landet der programmet ble filmet før man avslutter en debatt om landets beste regionale mat," la han til.

Ting går raskt med robottale. Eric Rosenblum, en administrerende partner i Tsingyuan Ventures, som investerer i konversasjons-AI, sa at noen av de mest grunnleggende problemene innen datastøttet tale er praktisk t alt løst.

For eksempel er nøyaktigheten av taleforståelse allerede ekstremt høy i tjenester som transkripsjoner utført av programvaren Otter.ai eller medisinske notater tatt av DeepScribe.

"Den neste grensen er imidlertid mye vanskeligere," la han til.

"Beholde forståelse av kontekst, som er et problem som går langt utover naturlig språkbehandling, og empati, slik som datamaskiner som samhandler med mennesker, trenger å forstå frustrasjon, sinne, utålmodighet osv. Det jobbes med begge disse sakene, men begge er ganske langt fra tilfredsstillende."

Nevrale nettverk er nøkkelen

For å generere naturtro stemmer bruker selskaper teknologi som dype nevrale nettverk, en form for maskinlæring som klassifiserer data gjennom lag, sier Matt Muldoon, nordamerikansk president i ReadSpeaker, et selskap som utvikler tekst-til-tale-programvare, sa i et e-postintervju.

"Disse lagene foredler signalet og sorterer det i mer komplekse klassifikasjoner," la han til. "Resultatet er syntetisk tale som høres uhyggelig ut som et menneske."

En annen teknologi under utvikling er Prosody Transfer, som innebærer å kombinere lyden av en tekst-til-tale-stemme med talestilen til en annen, sa Muldoon. Det er også overføringslæring, som reduserer mengden treningsdata som trengs for å produsere en ny nevral tekst-til-tale-stemme.

Kaplan sa at det å produsere menneskelignende tale også krever enorme mengder prosessorkraft. Selskaper utvikler nevrale akseleratorbrikker, som er tilpassede moduler som fungerer sammen med vanlige prosessorer.

"Neste trinn i dette vil være å sette disse brikkene inn i mindre maskinvare, ettersom det for øyeblikket allerede er gjort for kameraer når AI for syn er nødvendig," la han til. "Det vil ikke ta lang tid før denne typen databehandling er tilgjengelig i selve hodetelefonene."

En utfordring med å utvikle AI-drevet tale er at alle snakker forskjellig, så datamaskiner har en tendens til å ha vanskelig for å forstå oss.

"Tenk Georgia vs. Boston vs. North Dakota-aksenter, og om engelsk er hovedspråket ditt eller ikke," sa Monica Dema, som jobber med talesøkanalyse hos MDinc, i en e-post. "Når vi tenker glob alt, er det kostbart å gjøre dette for alle regionene i Tyskland, Kina og India, men det betyr ikke at det ikke er eller kan gjøres."

Anbefalt: