Mis on pMillised on 3D masinnägemise põhimõtted?3D masinnägemise põhimõtted? - Blogi

3D-nägemine on multidistsiplinaarne valdkond, mis hõlmab arvutigraafikat, arvutinägemist ja tehisintellekti. Selle eesmärk on võimaldada masinatel mõista ja töödelda teavet kolme-mõõtmelises ruumis, saavutades objektide ja stseenide sügavuse tajumise, äratundmise ja mõistmise.

Peamised ülesanded

3D rekonstrueerimine

3D-stseenide sügavushindamine või objektipindade digitaalne proovide võtmine, samuti 3D-andmete töötlemine ja kuvamine; monokulaarne rekonstrueerimine, binokulaarne rekonstrueerimine, struktureeritud valgus-põhine rekonstrueerimine, laser-põhine rekonstrueerimine; suuremahuline-3D rekonstrueerimine, mobiilne 3D rekonstrueerimine.

Poosi hinnang

Kaamerate või objektide asukoha ja orientatsiooni arvutamine kolme-dimensioonilises füüsilises ruumis ning reaalajas-jälgimine.

3D mõistmine

Objektide tuvastamine, tuvastamine ja otsimine, samuti stseenide või objektide segmenteerimine ja semantiline märgistamine.

Tööpõhimõtted

3D-nägemine on tööstusrobotites üks olulisemaid teabe tajumise meetodeid ja selle võib jagada optilisteks ja mitte-{1}}optilisteks pildistamismeetoditeks. Praegu kasutatakse kõige laialdasemalt optilisi meetodeid.

Lennuaja--(TOF) meetod

See meetod arvutab kauguse objektist, mõõtes valguse emissiooni ja vastuvõtu vahelist ajavahet. Võttes näiteks TOF-kaamera, kasutab iga piksel objekti sügavuse saamiseks valguse lennu ajavahet. Klassikaliste mõõtmismeetodite korral alustab detektorisüsteem ajastust, kui see kiirgab valgusimpulsi, salvestab sihtvalguse kaja vastuvõtmisel edasi-{2}}reisimise aja ja hindab valemi järgi sihtmärgi kaugust.

See jaguneb otseseks TOF-iks (DTOF) ja kaudseks TOF-iks (I-TOF). DTOF-i kasutatakse tavaliselt ühe-punkti kauguse süsteemides ja ala-laia 3D-kujutise saavutamiseks on sageli vaja skannimistehnoloogiat; I-TOF ekstrapoleerib kaudselt edasi-tagasi reisi aja valgustugevuse-ajast sõltuvatest mõõtmistest, välistades vajaduse täpse ajastuse järele. Praegu on see TOF-kaameratel põhinevate elektrooniliste ja optiliste mikserite jaoks mõeldud lahendus. TOF-kujutist saab kasutada suure vaatevälja, pika-kauguse, madala-täpsusega ja odava-3D-kujutise saamiseks ning seda kasutatakse keskkonna tajumiseks intelligentsetes mehitamata süsteemides (nt robotid, mehitamata sõidukid, droonid jne).

Struktureeritud valguse projektsioon 3D-kujutis

Struktureeritud valguse projektsioon 3D-pildistamine on praegu peamine meetod 3D-nägemise tajumiseks robotites. Projektor projitseerib sihtobjektile konkreetse struktureeritud valgustusmustri, näiteks triibud või halli koodi mustrid, ja kaamera jäädvustab sihtmärgi poolt moduleeritud pildi. Objekti pinna lainetuse tõttu deformeerub struktureeritud valgusmuster objekti pinnal. Töödeldes pilte ja kasutades visuaalseid mudeleid, et võrrelda mustreid enne ja pärast deformatsiooni ning analüüsides mustri moonutusi, saab arvutada sihtobjekti pinna iga punkti kolmemõõtmelise koordinaatide teabe.

Robot-käsi{0}}silmasüsteemi rakendustes on stsenaariumide puhul, kus suurt 3D-mõõtmistäpsust ei nõuta (nt kaubaaluste eemaldamine, kaubaaluste eemaldamine ja 3D-haaramine), pseudo-juhuslike täppide projitseerimise meetod, et saada 3D-sihtteavet. Seda meetodit kasutatakse tavaliselt tööstuslikul kontrollimisel ja 3D-modelleerimisel ning see võimaldab kiiresti saada objekti pinna 3D-andmeid. Struktureeritud valguspildisüsteem koosneb mitmest projektorist ja kaamerast. Levinud konstruktsioonivormid on järgmised: ühe projektori-üks kaamera, ühe projektori-kahe kaamera, ühe projektori-mitu kaamerat, ühe kaamera-kahe projektori ja ühe kaameraga{14}}mitu projektorit.

Struktureeritud valgusprojektsiooni 3D-pildistamise põhitööpõhimõte on järgmine: projektor projitseerib sihtobjektile konkreetse struktureeritud valguse valgustusmustri, kaamera jäädvustab sihtmärgi poolt moduleeritud pildi ning seejärel saadakse pilditöötluse ja visuaalsete mudelite abil sihtobjekti 3D-informatsioon. Levinud projektorite tüübid on järgmised: vedelkristallekraan (LCD), digitaalne valgusmodulatsiooniprojektsioon (DLP: näiteks digitaalsed mikropeegelseadmed (DMD)) ja laser-LED-mustri otseprojektsioon.

Struktureeritud valguse projektsioonide arvu põhjal saab struktureeritud valguse projektsiooni 3D-kujutise jagada ühe-võttega 3D- ja mitme-võttega 3D-meetoditeks. Single-shot struktureeritud valgus kasutab peamiselt ruumilist multipleksimist ja sagedusmultipleksimist. Levinud kodeerimisvormide hulka kuuluvad: värvikodeering, halltoonide indekseerimine, geomeetrilise kujundi kodeerimine ja juhuslikud täpimustrid. Praegu kasutatakse robotkäe{9}}silmasüsteemi rakendustes laialdaselt stsenaariumide jaoks, kus suurt 3D-mõõtmistäpsust ei nõuta (nt kaubaalustele eemaldamine, kaubaaluste eemaldamine ja 3D-haaramine), pseudo{12}}juhuslike täppide projitseerimise meetodit, et saada sihtmärk 3D-teavet.

Multi{0}}võtete 3D-meetodid kasutavad peamiselt aja{2}}multipleksimise kodeerimist. Levinud mustri kodeerimise vormid on järgmised: binaarkodeering, mitme sagedusega faasi{5}}nihutav kodeering ja hübriidkodeeringu meetodid (nt hallkood ja faasinihutavad ääred). Struktureeritud valguse 3D-pildistamise põhiprintsiip on näidatud alloleval joonisel. Struktureeritud valgusmuster genereeritakse arvuti või spetsiaalse optilise seadme abil ja projitseeritakse seejärel optilise projektsioonisüsteemi abil testitava objekti pinnale. Objekti pinna poolt moduleeritud ja deformeeritud struktureeritud valguspildi jäädvustamiseks kasutatakse pildihõiveseadet (nt CCD- või CMOS-kaamerat). Seejärel kasutatakse pilditöötlusalgoritme, et arvutada vastavus pildi iga piksli ja objekti kontuuril olevate punktide vahel. Lõpuks arvutatakse objekti kolmemõõtmeline kontuuriteave süsteemi struktuuri mudeli ja selle kalibreerimistehnoloogia abil. Praktilistes rakendustes kasutatakse tavaliselt halli koodi projektsiooni, sinusoidaalset faasi{15}}nihutavat ääreprojektsiooni või hübriidset halli koodi ja siinusfaasi{16}}nihutavat 3D-tehnoloogiat.

Karedate pindade puhul saab visuaalse kujutise mõõtmiseks projitseerida struktureeritud valguse otse objekti pinnale; tugevalt peegeldavate siledate pindade ja peegelobjektide 3D-mõõtmiseks ei saa aga struktureeritud valguse projektsiooni otse testitavale pinnale projitseerida ning 3D-mõõtmine nõuab peegeldumistehnikate kasutamist.

Selle skeemi puhul ei projitseerita narmasid otse testitava objekti kontuurile, vaid pigem hajutavale ekraanile või kasutatakse vedelkristallkuvari (LCD) ekraani, et neid otse kuvada. Kaamera hangib läbi peegeldunud valguse tee ereda pinna kumeruse muutustest moduleeritud eriteabe ja arvutab seejärel kolmemõõtmelise kontuuri morfoloogia.

3D-kujutise skaneerimine

Skannivad 3D-pildistamise meetodid võib jagada skaneerimise ulatuse määramiseks, aktiivseks triangulatsiooniks ja kromaatiliseks konfokaalseks meetoditeks. Skaneerimise ulatus kasutab kollimeeritud valguskiirt, et skaneerida 3D-mõõtmiseks kogu sihtpinda. Tüüpilised skaneerimise kauguse määramise meetodid hõlmavad järgmist: ühe-punkti aja--lennumeetodid, nagu pidevlaine sagedusmodulatsioon (FM-CW) ja impulssvahemiku määramine (LiDAR); laseri hajumise interferomeetria, nt interferomeetrid, mis põhinevad mitme lainepikkuse interferentsi, holograafilise interferentsi, valge valguse interferentsi ja täpiliste häirete põhimõtetel; ja konfokaalsed meetodid, nagu kromaatiline konfokaalne ja autofookus.

Ühe-punkti vahemikuga skaneerimise 3D-meetodites sobib ühe-punkti aja--lennumeetod pikamaa-skaneerimiseks, kuid mõõtmise täpsus on suhteliselt madal, tavaliselt millimeetri vahemikus. Teised ühe-punkti skaneerimise meetodid hõlmavad ühe-punkti laserinterferomeetriat, konfokaalset mikroskoopiat ja ühe-punkti aktiivset lasertriangulatsiooni. Need meetodid pakuvad suurt mõõtmistäpsust, kuid esimene nõuab kontrollitud keskkonda. Joone skaneerimine pakub mõõdukat täpsust ja kõrget efektiivsust. Aktiivne lasertriangulatsioon ja kromaatiline konfokaalne mikroskoopia sobivad eriti hästi 3D-mõõtmiseks robotkäe otsas. Aktiivne triangulatsioon põhineb triangulatsiooni põhimõttel, kasutades sihtpinna skaneerimiseks 3D-mõõtmiseks kollimeeritud kiirt või ühte või mitut tasapinnalist kiirt.

Valguskiir saadakse tavaliselt järgmistel viisidel: laserkollimatsioon, silindrilise või nelinurkse pinna prismakiire laiendamine, mittekoherentne valgus (nt valge valgus, LED-valgusallikas), mis projitseeritakse läbi väikeste aukude, pilude (võrede) või koherentne valguse difraktsioon. Aktiivse triangulatsiooni saab jagada kolme tüüpi: ühe-punkti skaneerimine, ühe-jooneline skaneerimine ja mitme-jooneline skaneerimine. Praegu on enamik müügilolevatest robotkäeotsa efektoritele mõeldud toodetest ühe-punkti ja ühe{7}}joonega skannerid.

Mitmerealiste{0}}skannimismeetodite puhul on äärenumbrite usaldusväärne tuvastamine väljakutse. Äärearvude täpseks tuvastamiseks pildistatakse tavaliselt suurel kiirusel vaheldumisi kahte risti asetsevate valgustasapindade komplekti. See võimaldab ka "Flying Triangulation" skaneerimist, mille skaneerimise ja 3D rekonstrueerimise protsess on näidatud alloleval joonisel. Mitmerealine projektsioon ja ühe-välguga pildistamine loovad hõreda 3D-vaate. Mitmed 3D-vaadete jadad luuakse piki- ja põikprojektsiooni skaneerimisega ning seejärel luuakse 3D-kujutise registreerimise teel kõrge eraldusvõimega, terviklik ja tihe 3D-pinnamudel.

Kromaatiline konfokaalne mikroskoopia näib olevat võimeline skaneerima ja mõõtma töötlemata ja siledaid läbipaistmatuid ja läbipaistvaid objekte, nagu peegeldavad pinnad ja läbipaistvad klaaspinnad, ning seda kasutatakse praegu laialdaselt sellistes valdkondades nagu mobiiltelefonide kaante 3D-kontroll. Kromaatilisel konfokaalsel skaneerimisel on kolme tüüpi: ühe-punkti ühe-mõõtmeline absoluutse kauguse mõõtmise skaneerimine, mitme-punkti massiivi skaneerimine ja pidev joonskaneerimine. Alloleval joonisel on näited absoluutse kauguse mõõtmisest ja pidevast joonskaneerimisest. Pidev joonskaneerimine on samuti massiivi skannimise tüüp, kuid suurema ja tihedama punktide massiiviga.

Stereo Vision 3D pildistamine

Stereonägemine viitab üldiselt sihtobjekti 3D-struktuuri või sügavusteabe rekonstrueerimisele kahe või enama kujutise hankimise teel erinevatest vaatepunktidest. Sügavuse tajumise visuaalsed vihjed võib jagada okulaarseteks ja binokulaarseteks vihjeteks (binokulaarne erinevus). Praegu saab 3D-stereonägemist saavutada monokulaarse nägemise, binokulaarse nägemise, mitme-vaatega nägemise ja valgusvälja 3D-pildistamise (elektrooniline liitsilm või massiivkaamera) abil. Monokulaarse nägemise sügavuse tajumise näpunäited hõlmavad tavaliselt järgmist: perspektiiv, fookuskauguse erinevused, mitme-vaatega kujutised, oklusioon, varjud, liikumise parallaks jne.

Robotnägemise puhul saab seda saavutada ka peegelpildi ja muude kujunditega-alates-X-meetoditest. Binokulaarse nägemise sügavuse tajumise visuaalsete näpunäidete hulka kuuluvad: silmade lähenemise asend ja binokulaarne ebavõrdsus. Masinnägemises kasutatakse kahte kaamerat, et saada kahest vaatepunktist samast sihtstseenist kaks vaatepunkti kujutist ja seejärel arvutatakse sihtstseeni 3D sügavuse teabe saamiseks kahe vaatepunkti kujutise vastavate punktide erinevus. Tüüpiline binokulaarse stereonägemise arvutamise protsess sisaldab nelja järgmist sammu: pildimoonutuste korrigeerimine, stereokujutise paari korrigeerimine, kujutise registreerimine ja triangulatsiooni taasprojitseerimise erinevuste kaardi arvutamine.

Mitme-vaatelise nägemisega pildistamine või mitme-vaatega stereokujutis kasutab ühte või mitut kaamerat, et saada ühest ja samast sihtstseenist mitu pilti mitmest vaatepunktist, et rekonstrueerida sihtstseeni kolmemõõtmeline teave.

Mitme-vaatega stereokujutist kasutatakse peamiselt järgmiste stsenaariumide korral: mitme kaamera kasutamine erinevatest vaatepunktidest, et saada mitu pilti samast sihtstseenist, ning seejärel funktsioonide{1}}põhise stereorekonstruktsiooni ja muude algoritmide kasutamine stseeni sügavuse ja ruumistruktuuri teabe saamiseks; kasutades struktuuri-alates-liikumise (SFM) tehnikat, kasutades sama kaamerat, mille sisemised parameetrid on muutmata, et saada erinevatest vaatepunktidest mitu kujutist, et rekonstrueerida sihtstseeni kolmemõõtmeline teave. Seda tehnoloogiat kasutatakse tavaliselt suure hulga kontrollpunktide jälgimiseks sihtstseenis, taastades pidevalt stseeni 3D-struktuuriteavet, samuti kaamera poosi ja asendit. Valgusvälja pildistamine erineb traditsioonilistest kaamerapildistamise põhimõtetest. Traditsioonilised kaamerad moodustavad 2D-pildi otse pildistamistasandil pärast seda, kui valgus läbib objektiivi.

Valgusvälja kaamerad lisavad anduri tasapinna ette mikroläätsede massiivi. Põhiläätse kaudu langev valgus läbib uuesti iga mikroläätse ja võetakse vastu valgustundliku massiivi poolt, saades seeläbi teavet valguskiirte suuna ja asukoha kohta. See võimaldab kujutise tulemusi hiljem töödelda, saavutades efekti "pildista enne, fokuseeri hiljem" ja võimaldab selle teabe abil taastada stseeni kolmemõõtmelise struktuuri. Sellistes valdkondades nagu virtuaalreaalsus ja liitreaalsus aitab valgusvälja pilditehnoloogia pakkuda realistlikumat visuaalset kogemust ning võimaldab täpsemat kolmemõõtmelist tajumist ja stseeniga suhtlemist.

Valgusvälja 3D-pildistamise põhimõte erineb struktuurselt traditsiooniliste CCD- ja CMOS-kaamerate pildistamise põhimõtetest. Traditsioonilised kaamerad pildistavad valgust otse pildistamistasandile pärast seda, kui see läbib objektiivi, tekitades üldiselt 2D-kujutise. Valgusvälja kaamerad lisavad anduri tasapinna ette mikroläätsede massiivi, mille tulemusena läbib põhiläätse langev valgus uuesti läbi iga mikroläätse ja võetakse vastu valgustundliku massiivi poolt, saades seeläbi teavet valguskiirte suuna ja asukoha kohta. See võimaldab pilditulemuste{5}}järeltöötlemist, saavutades efekti „kõigepealt pildista, hiljem fokuseeri”.