„Google“ kuria naują vaizdo sintezės metodą

Keturi mokslininkai iš „Google“ paskelbė mokslinį darbą, atskleidusį įdomius rezultatus – dirbtinių neuroninių tinklų ir mašininio mokymosi panaudojimą, kuriant įvairius vaizdus iš nuotraukų, tačiau jau kitais rakursais.

Darbas, pavadintas „DeepStereo: Learning to Predict New Views from the World’s Imagery“ (Gilusis Stereo: mokantis numatyti naujus vaizdus iš nuotraukų“), atskleidė, kad įmanoma sukurti vaizdus, atitinkančius video įrašą, turint tik keliasdešimt aplinkos nuotraukų – sluoksnių, ir leidžiant kompiuterinei sistemai sintetinti realaus pasaulio vaizdus, užpildant trūkstamus kadrus, tarsi video kamera judėtų nuo vienos nuotraukos prie kitos.

Žodis „gilus“ pavadinime kilo iš neuroninių tinklų topologijos, ir reiškia, kad jie kompiuteryje modeliuojami kaip turintys daug sluoksnių – gilūs. Darbe buvo naudojami 96 sluoksniai, o tinklo apmokymui buvo panaudota 100 tūkstančių nuotraukų.

Kompiuterio užduotis buvo analizuoti kiekvieną vaizdą kaip pikselių rinkinį, ir numatyti kaip atrodytų kiekvienas pikselis, esantis kadre prieš tą vaizdą ir po jo.

„DeepStereo“ algoritmui buvo duodamos dvi „Street View“ gretimai padarytos nuotraukos, ir jis sintetindavo trečią vaizdą iš kiek kitos perspektyvos, po to jį panaudodavo sekančiam vaizdui kurti, ir taip sukurdavo eiles kadrų, atrodančių tarsi realus video įrašas.

Straipsnyje pateikiamas ir rezultatas – iš „Street View“ nuotraukų kompiuterio padarytas video įrašas, atrodantis taip, tarsi iš tiesų buvo filmuojama judančia kamera.

https://youtu.be/cizgVZ8rjKA

Darbo autorių teigimu, tai vienas pirmųjų sėkmingų bandymų panaudoti dirbtinius neuroninius tinklus naujų vaizdų sintezei iš realių nuotraukų. Tai galima laikyti ir vaizdo interpoliavimu, sukuriant trimačius vaizdus iš dvimačių nuotraukų.

„Street View“ galima laikyti ir vienu didžiausių pasaulio fotoalbumų, o gal ir pačiu didžiausiu, todėl nekeista, kad „Google“ nori pamėginti jam pridėti dar vieną dimensiją ir sukurti tikrovišką trimatį pasaulio atvaizdą.

Šaltinis: DeepStereo: Learning to Predict New Views from the World’s Imagery, arXiv:1506.06825 [cs.CV] arxiv.org/abs/1506.06825