Key takeaways
- En ny maskinlæringsmodell hallusinerer et bilde av en setnings utseende på et språk for å hjelpe oversettelsen.
- AI-systemet, k alt VALHALLA, ble designet for å etterligne måten mennesker oppfatter språk på.
- Det nye systemet er en del av en voksende bevegelse for å bruke AI for å forstå språk.
Den menneskelige metoden for å visualisere bilder mens du oversetter ord kan hjelpe kunstig intelligens (AI) å forstå deg bedre.
En ny maskinlæringsmodell hallusinerer et bilde av hvordan en setning ser ut på et språk. I følge en fersk forskningsartikkel bruker teknikken visualisering og andre ledetråder for å hjelpe med oversettelse. Det er en del av en voksende bevegelse å bruke AI for å forstå språk.
"Hvordan folk snakker og skriver er unikt fordi vi alle har litt forskjellige toner og stiler," sa Beth Cudney, professor i dataanalyse ved Maryville University, som ikke var involvert i forskningen, til Lifewire i et e-postintervju.. "Å forstå kontekst er vanskelig fordi det er som å håndtere ustrukturerte data. Det er her naturlig språkbehandling (NLP) er nyttig. NLP er en gren av AI som adresserer forskjellene i hvordan vi kommuniserer ved hjelp av maskinell leseforståelse. Den viktigste forskjellen i NLP, som en gren av AI, fokuserer ikke bare på den bokstavelige betydningen av ordene vi snakker eller skriver. Den ser på betydningen."
Gå spør Alice
Det nye AI-systemet, k alt VALHALLA, laget av forskere fra MIT, IBM og University of California i San Diego, ble designet for å etterligne måten mennesker oppfatter språk på. Ifølge forskere forbedrer bruk av sensorisk informasjon, som multimedia, sammen med nye og ukjente ord, som flashkort med bilder, språktilegnelse og -oppbevaring.
Disse systemene øker kraften til chatboter som foreløpig kun er trent og i stand til spesifikke samtaler…
Teamet hevder metoden deres forbedrer nøyaktigheten av maskinoversettelse i forhold til oversettelse av bare tekst. Forskerne brukte en koder-dekoder-arkitektur med to transformatorer, en type nevrale nettverksmodeller egnet for sekvensavhengige data, som språk, som kan ta hensyn til nøkkelord og semantikk i en setning. Den ene transformatoren genererer en visuell hallusinasjon, og den andre utfører multimodal oversettelse ved å bruke utdata fra den første transformatoren.
"I virkelige scenarier har du kanskje ikke et bilde med hensyn til kildesetningen," sa Rameswar Panda, et av forskningsteammedlemmene, i en pressemelding. "Så, motivasjonen vår var i utgangspunktet: I stedet for å bruke et eksternt bilde under slutninger som input, kan vi bruke visuell hallusinasjon - evnen til å forestille oss visuelle scener - for å forbedre maskinoversettelsessystemer?"
AI Understanding
Betydelig forskning er fokusert på å fremme NLP, påpekte Cudney. For eksempel var Elon Musk medstifter av Open AI, som jobber med GPT-3, en modell som kan snakke med et menneske og som er kunnskapsrik nok til å generere programvarekode i Python og Java.
Google og Meta jobber også med å utvikle konversasjons-AI med systemet sitt k alt LAMDA. "Disse systemene øker kraften til chatbots som foreløpig bare er trent og i stand til spesifikke samtaler, noe som sannsynligvis vil endre ansiktet til kundestøtte og helpdesk," sa Cudney.
Aaron Sloman, medgründer CLIPr, et AI-teknologiselskap, sa i en e-post at store språkmodeller som GPT-3 kan lære av svært få treningseksempler for å forbedre sammendrag av tekst basert på menneskelig tilbakemelding. For eksempel, sa han, kan du gi en stor språkmodell et matematisk problem og be AI-en tenke steg-for-steg.
"Vi kan forvente at større innsikt og resonnement kan hentes ut fra store språkmodeller etter hvert som vi lærer mer om deres evner og begrensninger," la Sloman til. "Jeg forventer også at disse språkmodellene skaper mer menneskelignende prosesser ettersom modellbyggere utvikler bedre måter å finjustere modellene for spesifikke oppgaver av interesse."
Georgia Tech databehandlingsprofessor Diyi Yang spådde i et e-postintervju at vi vil se mer bruk av systemer for naturlig språkbehandling (NLP) i hverdagen vår, alt fra NLP-baserte personlige assistenter til å hjelpe med e-poster og telefonsamtaler, til kunnskapsrike dialogsystemer for informasjonssøking innen reise eller helsevesen."I tillegg til rettferdige AI-systemer som kan utføre oppgaver og hjelpe mennesker på en ansvarlig og partisk måte," la Yang til.
Enorme AI-modeller som bruker billioner av parametere som GPT-3 og DeepText vil fortsette å jobbe mot én enkelt modell for alle språkapplikasjoner, spådde Stephen Hage, en maskinlæringsingeniør hos Dialexa, i et e-postintervju. Han sa at det også vil komme nye typer modeller for spesifikke bruksområder, for eksempel stemmestyrt netthandel.
"Et eksempel kan være en shopper som sier 'Vis meg denne øyenskyggen i midnattsblå med mer glorie', for å vise den nyansen på personens øyne med litt kontroll over hvordan den påføres," la Hage til.