Key takeaways
- Nvidia viste nylig frem en teknikk som gjør 2D-bilder til 3D-scener på bare sekunder.
- Metoden bruker datamaskinkraft til å anslå hvordan lys oppfører seg i den virkelige verden.
- Metaversen er et område der 3D-scener er nyttige fordi de kan sees fra ethvert kameraperspektiv.
Ny kunstig intelligens (AI)-teknologi fra Nvidia kan snart gjøre 2D-bilder til 3D-scener på bare sekunder, noe som gjør etableringen av oppslukende virtuelle rom som metaverse like trivielt som tekstbehandling.
Nvidia demonstrerte nylig fotometoden k alt Instant NeRF, som bruker datakraft til å anslå hvordan lys oppfører seg i den virkelige verden. Den kan forvandle de gamle bildene dine til en videospillscene, eller den kan brukes til å lære opp roboter og selvkjørende biler til å forstå størrelsen og formen til gjenstander i den virkelige verden.
"3D-bildebehandling bringer en ny verden av transformasjon," fort alte Oren Debbi, administrerende direktør i Visionary.ai, et datasynsselskap som kjører sine 3D-algoritmer på Nvidia-plattformen, til Lifewire i et e-postintervju. "Ved å bruke 3D etterligner du virkelig dybde i scenen og får bildet til å virke mer levende og realistisk. Foruten AR/VR og industrielle kameraer, hvor 3D er veldig vanlig, ser vi nå at det brukes på nesten alle smarttelefoner uten bruker selv vet."
Legge til dimensjoner
Det første øyeblikkelige bildet, tatt for 75 år siden med et Polaroid-kamera, hadde som mål å fange 3D-verdenen i et 2D-bilde raskt. Nå jobber AI-forskere med det motsatte: å gjøre en samling stillbilder til en digital 3D-scene på sekunder.
Kjent som invers gjengivelse, bruker prosessen AI for å tilnærme hvordan lys oppfører seg i den virkelige verden, noe som gjør det mulig for forskere å rekonstruere en 3D-scene fra en håndfull 2D-bilder tatt i forskjellige vinkler. Nvidia hevder de har utviklet en tilnærming som utfører denne oppgaven nesten umiddelbart.
Nvidia brukte denne tilnærmingen med en ny teknologi k alt neural radiance fields, eller NeRF. Selskapet sier at resultatet, k alt Instant NeRF, er den raskeste NeRF-teknikken til dags dato. Modellen krever bare sekunder å trene på noen få dusin stillbilder og kan deretter gjengi den resulterende 3D-scenen innen titalls millisekunder.
"Hvis tradisjonelle 3D-representasjoner som polygonale masker er beslektet med vektorbilder, er NeRF-er som punktgrafikkbilder: de fanger tett opp måten lyset stråler fra et objekt eller i en scene," David Luebke, visepresident for grafikkforskning ved Nvidia, sa i en pressemelding: "I den forstand kan Instant NeRF være like viktig for 3D som digitale kameraer og JPEG-komprimering har vært for 2D-fotografering, noe som øker hastigheten, brukervennligheten og rekkevidden for 3D-opptak og -deling betydelig.«
Å samle inn data for å mate en NeRF krever at det nevrale nettverket tar noen dusin bilder tatt fra flere posisjoner rundt scenen, samt kameraposisjonen til hvert av disse bildene.
NeRF trener et lite nevr alt nettverk for å rekonstruere scenen ved å forutsi fargen på lys som stråler ut i alle retninger, fra ethvert punkt i 3D-rommet.
The Appeal of 3D
Metaversen er et område hvor 3D-scener er nyttige fordi de kan sees fra ethvert kameraperspektiv, sa Brad Quinton, grunnlegger av Perceptus Platform for augmented reality (AR), til Lifewire i et e-postintervju. Akkurat som vi kan gå gjennom et rom i det virkelige liv og se innholdet fra mange forskjellige vinkler, med en rekonstruert 3D-scene, kan vi praktisk t alt bevege oss gjennom et rom og se det fra ethvert perspektiv.
"Dette kan være spesielt nyttig for å lage miljøer for bruk i virtuell virkelighet," sa Quinton.
Programmer som Apples Object Capture bruker en teknikk k alt fotogrammetri for å lage virtuelle 3D-objekter fra en serie 2D-bilder. 3D-modellene vil bli mye brukt i virtuell virkelighet og AR-applikasjoner, spådde Quinton. For eksempel bruker noen AI-er, som den i Perceptus AR-plattformen, 3D-modeller for å skape en forståelse av den virkelige verden, noe som muliggjør AR-applikasjoner i sanntid.
Bruken av 3D-bilder etterligner også virkelig dybde i en scene og får bildet til å virke mer levende og realistisk, sa Debbi. For å lage en Bokeh-effekt (aka portrettmodus eller kinomodus), er 3D-dybdekartlegging nødvendig. Teknikken brukes på nesten alle smarttelefoner.
"Dette er allerede standarden for profesjonelle videografer som filmer filmer, og dette er i ferd med å bli standarden for alle forbrukere," la Debbi til.