AI kan nå forstå videoene dine ved å se dem

Innholdsfortegnelse:

AI kan nå forstå videoene dine ved å se dem
AI kan nå forstå videoene dine ved å se dem
Anonim

Key takeaways

  • Forskere sier de kan lære AI å merke videoer ved å se og lytte.
  • AI-systemet lærer å representere data for å fange opp konsepter som deles mellom visuelle og lyddata.
  • Det er en del av et forsøk på å lære AI å forstå konsepter som mennesker ikke har problemer med å lære, men som datamaskiner har vanskelig for å forstå.

Image
Image

Et nytt kunstig intelligenssystem (AI) kan se og lytte til videoene dine og merke ting som skjer.

MIT-forskere har utviklet en teknikk som lærer AI å fange opp handlinger som deles mellom video og lyd. Metoden deres kan for eksempel forstå at handlingen til en baby som gråter i en video er relatert til det t alte ordet "gråter" i et lydklipp. Det er en del av et forsøk på å lære AI hvordan man forstår konsepter som mennesker ikke har problemer med å lære, men som datamaskiner har vanskelig for å forstå.

"Det utbredte læringsparadigmet, overvåket læring, fungerer bra når du har datasett som er godt beskrevet og fullstendig," sa AI-ekspert Phil Winder til Lifewire i et e-postintervju. "Dessverre er datasett sjelden komplette fordi den virkelige verden har en dårlig vane med å presentere nye situasjoner."

Smarter AI

Datamaskiner har problemer med å finne ut av hverdagsscenarier fordi de trenger å knuse data i stedet for lyd og bilder som mennesker. Når en maskin "ser" et bilde, må den kode det bildet til data den kan bruke til å utføre en oppgave som en bildeklassifisering. AI kan sette seg fast når innganger kommer i flere formater, som videoer, lydklipp og bilder.

"Hovedutfordringen her er, hvordan kan en maskin justere de forskjellige modalitetene? Som mennesker er dette enkelt for oss," sa Alexander Liu, en MIT-forsker og førsteforfatter av en artikkel om emnet. nyhetsmelding. "Vi ser en bil og hører lyden av en bil som kjører forbi, og vi vet at disse er de samme tingene. Men for maskinlæring er det ikke så enkelt."

Lius team utviklet en AI-teknikk som de sier lærer å representere data for å fange opp konsepter som deles mellom visuelle og lyddata. Ved å bruke denne kunnskapen kan maskinlæringsmodellen deres identifisere hvor en spesifikk handling finner sted i en video og merke den.

Den nye modellen tar rådata, for eksempel videoer og tilhørende teksttekster, og koder dem ved å trekke ut funksjoner eller observasjoner om objekter og handlinger i videoen. Den kartlegger deretter disse datapunktene i et rutenett, kjent som et innebyggingsrom. Modellen grupperer lignende data sammen som enkeltpunkter i rutenettet; hvert av disse datapunktene, eller vektorene, er representert av et individuelt ord.

For eksempel kan et videoklipp av en person som sjonglerer bli tilordnet en vektor merket "jonglering."

Forskerne designet modellen slik at den bare kan bruke 1 000 ord for å merke vektorer. Modellen kan bestemme hvilke handlinger eller konsepter den ønsker å kode inn i en enkelt vektor, men den kan bare bruke 1 000 vektorer. Modellen velger ordene den mener best representerer dataene.

"Hvis det er en video om griser, kan modellen tilordne ordet "gris" til en av de 1000 vektorene. Deretter, hvis modellen hører noen si ordet "gris" i et lydklipp, den skal fortsatt bruke den samme vektoren for å kode det," forklarte Liu.

Your Videos, Decoded

Bedre merkesystemer som det utviklet av MIT kan bidra til å redusere skjevhet i AI, sa Marian Beszedes, leder for forskning og utvikling ved biometrifirmaet Innovatrics, til Lifewire i et e-postintervju. Beszedes foreslo at dataindustrien kan se AI-systemer fra et produksjonsprosessperspektiv.

"Systemene aksepterer rådata som input (råmaterialer), forbehandler dem, inntar dem, tar beslutninger eller spådommer og produserer analyser (ferdige varer)," sa Beszedes. "Vi kaller denne prosessflyten "datafabrikken", og som andre produksjonsprosesser bør den være underlagt kvalitetskontroller. Dataindustrien må behandle AI-bias som et kvalitetsproblem.

"Fra et forbrukerperspektiv gjør feilmerkede data for eksempel nettsøk etter spesifikke bilder/videoer vanskeligere," la Beszedes til. "Med riktig utviklet AI kan du gjøre merking automatisk, mye raskere og mer nøytral enn med manuell merking."

Image
Image

Men MIT-modellen har fortsatt noen begrensninger. For det første fokuserte forskningen deres på data fra to kilder om gangen, men i den virkelige verden møter mennesker mange typer informasjon samtidig, sa Liu

"Og vi vet at 1000 ord fungerer på denne typen datasett, men vi vet ikke om det kan generaliseres til et reell problem," la Liu til.

MIT-forskerne sier at deres nye teknikk overgår mange lignende modeller. Hvis AI kan trenes til å forstå videoer, kan det hende du til slutt kan hoppe over å se vennens ferievideoer og få en datagenerert rapport i stedet.

Anbefalt: