• banderolë

OpenAI Point E: Krijoni një re me pika 3D nga format e valëve komplekse në minuta në një GPU të vetme

Në një artikull të ri Point-E: Një sistem për gjenerimin e reve me pika 3D nga sinjale komplekse, ekipi hulumtues OpenAI prezanton Point E, një sistem të sintezës së kushtëzuar të tekstit me pika 3D që përdor modele difuzioni për të krijuar forma të ndryshme dhe komplekse 3D të drejtuara nga teksti kompleks. sugjerime.në minuta në një GPU të vetme.
Performanca e mahnitshme e modeleve moderne të gjenerimit të imazheve të sotme ka stimuluar kërkimin në gjenerimin e objekteve të tekstit 3D.Megjithatë, ndryshe nga modelet 2D, të cilat mund të gjenerojnë dalje në minuta apo edhe sekonda, modelet gjeneruese të objekteve zakonisht kërkojnë disa orë punë GPU për të gjeneruar një mostër të vetme.
Në një artikull të ri Point-E: Një sistem për gjenerimin e reve me pika 3D nga sinjale komplekse, ekipi hulumtues OpenAI prezanton Point·E, një sistem sinteze tekstuale të kushtëzuar për retë me pika 3D.Kjo qasje e re përdor një model përhapjeje për të krijuar forma të larmishme dhe komplekse 3D nga sinjale teksti komplekse në vetëm një minutë ose dy në një GPU të vetme.
Ekipi është i përqendruar në sfidën e konvertimit të tekstit në 3D, e cila është kritike për demokratizimin e krijimit të përmbajtjes 3D për aplikacionet e botës reale, duke filluar nga realiteti virtual dhe lojërat në dizajnin industrial.Metodat ekzistuese për konvertimin e tekstit në 3D ndahen në dy kategori, secila prej të cilave ka të metat e veta: 1) modelet gjeneruese mund të përdoren për të gjeneruar mostra në mënyrë efikase, por nuk mund të shkallëzohen në mënyrë efikase për sinjale teksti të ndryshme dhe komplekse;2) një model teksti-imazhi i trajnuar paraprakisht për të trajtuar sugjerime teksti komplekse dhe të larmishme, por kjo qasje është intensive nga pikëpamja llogaritëse dhe modeli mund të ngecë lehtësisht në minimumet lokale që nuk korrespondojnë me objekte kuptimplote ose koherente 3D.
Prandaj, ekipi eksploroi një qasje alternative që synon të kombinojë pikat e forta të dy qasjeve të mësipërme, duke përdorur një model të përhapjes tekst-në-imazh të trajnuar në një grup të madh çiftesh tekst-imazh (duke e lejuar atë të trajtojë sinjale të ndryshme dhe komplekse) dhe një model i përhapjes së imazhit 3D i trajnuar në një grup më të vogël çiftesh tekst-imazh.Të dhënat e çiftit imazh-3D.Modeli tekst-për-imazh fillimisht merr mostrat e imazhit hyrës për të krijuar një paraqitje të vetme sintetike dhe modeli imazh-në-3D krijon një re pikë 3D bazuar në imazhin e zgjedhur.
Rafti gjenerues i komandës bazohet në kornizat gjeneruese të propozuara së fundmi për gjenerimin e imazheve me kusht nga teksti (Sohl-Dickstein et al., 2015; Song & Ermon, 2020b; Ho et al., 2020).Ata përdorin një model GLIDE me 3 miliardë parametra GLIDE (Nichol et al., 2021), të rregulluar mirë në modelet e paraqitura 3D, si modelin e tyre të transformimit tekst-në-imazh, dhe një grup modelesh difuzioni që gjenerojnë retë e pikave RGB si të tyre. modeli i transformimit.imazhe në imazh.Modele 3D.
Ndërsa puna e mëparshme përdori arkitektura 3D për të përpunuar retë e pikave, studiuesit përdorën një model të thjeshtë të bazuar në transduktor (Vaswani et al., 2017) për të përmirësuar efikasitetin.Në arkitekturën e tyre të modelit të difuzionit, imazhet e resë së pikës futen fillimisht në një model ViT-L/14 CLIP të para-trajnuar dhe më pas rrjetat e daljes futen në konvertues si shënues.
Në studimin e tyre empirik, ekipi krahasoi metodën e propozuar Point·E me modele të tjera gjeneruese 3D në vlerësimin e sinjaleve nga zbulimi i objekteve COCO, segmentimi dhe grupet e të dhënave të nënshkrimit.Rezultatet konfirmojnë se Pika E është në gjendje të gjenerojë forma të ndryshme dhe komplekse 3D nga sinjalet e tekstit kompleks dhe të përshpejtojë kohën e konkluzionit me një deri në dy renditje të madhësisë.Ekipi shpreson se puna e tyre do të frymëzojë kërkime të mëtejshme në sintezën e tekstit 3D.
Një model i para-trajnuar i përhapjes së resë kompjuterike dhe kodi i vlerësimit janë të disponueshëm në GitHub të projektit.Document Point-E: Një sistem për krijimin e reve me pika 3D nga të dhëna komplekse është në arXiv.
E dimë që nuk doni të humbisni asnjë lajm apo zbulim shkencor.Abonohu ​​në buletinin tonë të njohur të Synced Global AI Weekly për të marrë përditësime javore të AI.


Koha e postimit: Dhjetor-28-2022