聽技術(shù)牛人講解:手勢識(shí)別技術(shù)是什么?
發(fā)布時(shí)間:2015-03-02 責(zé)任編輯:sherryyu
【導(dǎo)讀】說到手勢識(shí)別大家并不陌生,想得到的是二維手型識(shí)別、二維手勢識(shí)別、三維手勢識(shí)別這幾個(gè)名詞,但是到底手勢識(shí)別技術(shù)是什么?怎么定義的?又是如何工作的呢?請看下文詳解!
談起手勢識(shí)別技術(shù),由簡單粗略的到復(fù)雜精細(xì)的,大致可以分為三個(gè)等級(jí):二維手型識(shí)別、二維手勢識(shí)別、三維手勢識(shí)別。在具體討論手勢識(shí)別之前,我們有必要先知道二維和三維的差別。二維只是一個(gè)平面空間,我們可以用(X坐標(biāo),Y坐標(biāo))組成的坐標(biāo)信息來表示一個(gè)物體在二維空間中的坐標(biāo)位置,就像是一幅畫出現(xiàn)在一面墻上的位置。三維則在此基礎(chǔ)上增加了“深度”(Z坐標(biāo))的信息,這是二維所不包含的。這里的“深度”并不是咱們現(xiàn)實(shí)生活中所說的那個(gè)深度,這個(gè)“深度”表達(dá)的是“縱深”,理解為相對于眼睛的“遠(yuǎn)度”也許更加貼切。就像是魚缸中的金魚,它可以在你面前上下左右的游動(dòng),也可能離你更遠(yuǎn)或者更近。
前兩種手勢識(shí)別技術(shù),完全是基于二維層面的,它們只需要不含深度信息的二維信息作為輸入即可。就像平時(shí)拍照所得的相片就包含了二維信息一樣,我們只需要使用單個(gè)攝像頭捕捉到的二維圖像作為輸入,然后通過計(jì)算機(jī)視覺技術(shù)對輸入的二維圖像進(jìn)行分析,獲取信息,從而實(shí)現(xiàn)手勢識(shí)別。
而第三種手勢識(shí)別技術(shù),是基于三維層面的。三維手勢識(shí)別與二維手勢識(shí)別的最根本區(qū)別就在于,三維手勢識(shí)別需要的輸入是包含有深度的信息,這就使得三維手勢識(shí)別在硬件和軟件兩方面都比二維手勢識(shí)別要復(fù)雜得多。對于一般的簡單操作,比如只是想在播放視頻的時(shí)候暫?;蛘呃^續(xù)放映,二維手勢也就足夠了。但是對于一些復(fù)雜的人機(jī)交互,比如玩游戲或者應(yīng)用在VR(虛擬現(xiàn)實(shí))上,三維手勢實(shí)在是居家旅行必備、舍我其誰的不二之選。
手勢識(shí)別分類
二維手型識(shí)別
二維手型識(shí)別,也可稱為靜態(tài)二維手勢識(shí)別,識(shí)別的是手勢中最簡單的一類。這種技術(shù)在獲取二維信息輸入之后,可以識(shí)別幾個(gè)靜態(tài)的手勢,比如握拳或者五指張開。其代表公司是一年前被Google收購的Flutter。在使用了他家的軟件之后,用戶可以用幾個(gè)手型來控制播放器。用戶將手掌舉起來放到攝像頭前,視頻就開始播放了;再把手掌放到攝像頭前,視頻又暫停了。
“靜態(tài)”是這種二維手勢識(shí)別技術(shù)的重要特征,這種技術(shù)只能識(shí)別手勢的“狀態(tài)”,而不能感知手勢的“持續(xù)變化”。舉個(gè)例子來說,如果將這種技術(shù)用在猜拳上的話,它可以識(shí)別出石頭、剪刀和布的手勢狀態(tài)。但是對除此之外的手勢,它就一無所知了。所以這種技術(shù)說到底是一種模式匹配技術(shù),通過計(jì)算機(jī)視覺算法分析圖像,和預(yù)設(shè)的圖像模式進(jìn)行比對,從而理解這種手勢的含義。
這種技術(shù)的不足之處顯而易見:只可以識(shí)別預(yù)設(shè)好的狀態(tài),拓展性差,控制感很弱,用戶只能實(shí)現(xiàn)最基礎(chǔ)的人機(jī)交互功能。但是它是識(shí)別復(fù)雜手勢的第一步,而且我們的確可以通過手勢和計(jì)算機(jī)互動(dòng)了,還是很酷的不是么?想象一下你忙著吃飯,只要憑空做個(gè)手勢,計(jì)算機(jī)就可以切換到下一個(gè)視頻,比使用鼠標(biāo)來控制可是方便多了!
二維手勢識(shí)別
二維手勢識(shí)別,比起二維手型識(shí)別來說稍難一些,但仍然基本不含深度信息,停留在二維的層面上。這種技術(shù)不僅可以識(shí)別手型,還可以識(shí)別一些簡單的二維手勢動(dòng)作,比如對著攝像頭揮揮手。其代表公司是來自以色列的PointGrab,EyeSight和ExtremeReality。
二維手勢識(shí)別擁有了動(dòng)態(tài)的特征,可以追蹤手勢的運(yùn)動(dòng),進(jìn)而識(shí)別將手勢和手部運(yùn)動(dòng)結(jié)合在一起的復(fù)雜動(dòng)作。這樣一來,我們就把手勢識(shí)別的范圍真正拓展到二維平面了。我們不僅可以通過手勢來控制計(jì)算機(jī)播放/暫停,我們還可以實(shí)現(xiàn)前進(jìn)/后退/向上翻頁/向下滾動(dòng)這些需求二維坐標(biāo)變更信息的復(fù)雜操作了。
這種技術(shù)雖然在硬件要求上和二維手型識(shí)別并無區(qū)別,但是得益于更加先進(jìn)的計(jì)算機(jī)視覺算法,可以獲得更加豐富的人機(jī)交互內(nèi)容。在使用體驗(yàn)上也提高了一個(gè)檔次,從純粹的狀態(tài)控制,變成了比較豐富的平面控制。這種技術(shù)已經(jīng)被集成到了電視里,但是目前還是以噱頭為主,還不能成為電視的主要常用控制方式。
三維手勢識(shí)別
接下來我們要談的就是當(dāng)今手勢識(shí)別領(lǐng)域的重頭戲——三維手勢識(shí)別。三維手勢識(shí)別需要的輸入是包含有深度的信息,可以識(shí)別各種手型、手勢和動(dòng)作。相比于前兩種二維手勢識(shí)別技術(shù),三維手勢識(shí)別不能再只使用單個(gè)普通攝像頭,因?yàn)閱蝹€(gè)普通攝像頭無法提供深度信息。要得到深度信息需要特別的硬件,目前世界上主要有3種硬件實(shí)現(xiàn)方式。加上新的先進(jìn)的計(jì)算機(jī)視覺軟件算法就可以實(shí)現(xiàn)三維手勢識(shí)別了。下面就讓小編為大家一一道來三維手勢識(shí)別的三維成像硬件原理。
1結(jié)構(gòu)光(Structure Light)
結(jié)構(gòu)光的代表應(yīng)用產(chǎn)品就是PrimeSense公司為大名鼎鼎的微軟家XBOX 360所做的Kinect一代了。這種技術(shù)的基本原理是,加載一個(gè)激光投射器,在激光投射器外面放一個(gè)刻有特定圖樣的光柵,激光通過光柵進(jìn)行投射成像時(shí)會(huì)發(fā)生折射,從而使得激光最終在物體表面上的落點(diǎn)產(chǎn)生位移。當(dāng)物體距離激光投射器比較近的時(shí)候,折射而產(chǎn)生的位移就較小;當(dāng)物體距離較遠(yuǎn)時(shí),折射而產(chǎn)生的位移也就會(huì)相應(yīng)的變大。這時(shí)使用一個(gè)攝像頭來檢測采集投射到物體表面上的圖樣,通過圖樣的位移變化,就能用算法計(jì)算出物體的位置和深度信息,進(jìn)而復(fù)原整個(gè)三維空間。
以Kinect一代的結(jié)構(gòu)光技術(shù)來說,因?yàn)橐蕾囉诩す庹凵浜螽a(chǎn)生的落點(diǎn)位移,所以在太近的距離上,折射導(dǎo)致的位移尚不明顯,使用該技術(shù)就不能太精確的計(jì)算出深度信息,所以1米到4米是其最佳應(yīng)用范圍。
2光飛時(shí)間(Time of Flight)
光飛時(shí)間是SoftKinetic公司所采用的技術(shù),該公司為業(yè)界巨鱷Intel提供帶手勢識(shí)別功能的三維攝像頭。同時(shí),這一硬件技術(shù)也是微軟新一代Kinect所使用的。這種技術(shù)的基本原理是加載一個(gè)發(fā)光元件,發(fā)光元件發(fā)出的光子在碰到物體表面后會(huì)反射回來。使用一個(gè)特別的CMOS傳感器來捕捉這些由發(fā)光元件發(fā)出、又從物體表面反射回來的光子,就能得到光子的飛行時(shí)間。根據(jù)光子飛行時(shí)間進(jìn)而可以推算出光子飛行的距離,也就得到了物體的深度信息。
就計(jì)算上而言,光飛時(shí)間是三維手勢識(shí)別中最簡單的,不需要任何計(jì)算機(jī)視覺方面的計(jì)算。
3多角成像(Multi-camera)
多角成像這一技術(shù)的代表產(chǎn)品是Leap Motion公司的同名產(chǎn)品和Usens公司的Fingo。
這種技術(shù)的基本原理是使用兩個(gè)或者兩個(gè)以上的攝像頭同時(shí)攝取圖像,就好像是人類用雙眼、昆蟲用多目復(fù)眼來觀察世界,通過比對這些不同攝像頭在同一時(shí)刻獲得的圖像的差別,使用算法來計(jì)算深度信息,從而多角三維成像。
在這里我們以兩個(gè)攝像頭成像來簡單解釋一下:
雙攝像頭測距是根據(jù)幾何原理來計(jì)算深度信息的。使用兩臺(tái)攝像機(jī)對當(dāng)前環(huán)境進(jìn)行拍攝,得到兩幅針對同一環(huán)境的不同視角照片,實(shí)際上就是模擬了人眼工作的原理。因?yàn)閮膳_(tái)攝像機(jī)的各項(xiàng)參數(shù)以及它們之間相對位置的關(guān)系是已知的,只要找出相同物體(楓葉)在不同畫面中的位置,我們就能通過算法計(jì)算出這個(gè)物體(楓葉)距離攝像頭的深度了。
多角成像是三維手勢識(shí)別技術(shù)中硬件要求最低,但同時(shí)是最難實(shí)現(xiàn)的。多角成像不需要任何額外的特殊設(shè)備,完全依賴于計(jì)算機(jī)視覺算法來匹配兩張圖片里的相同目標(biāo)。相比于結(jié)構(gòu)光或者光飛時(shí)間這兩種技術(shù)成本高、功耗大的缺點(diǎn),多角成像能提供“價(jià)廉物美”的三維手勢識(shí)別效果。
特別推薦
- 授權(quán)代理商貿(mào)澤電子供應(yīng)Same Sky多樣化電子元器件
- 使用合適的窗口電壓監(jiān)控器優(yōu)化系統(tǒng)設(shè)計(jì)
- ADI電機(jī)運(yùn)動(dòng)控制解決方案 驅(qū)動(dòng)智能運(yùn)動(dòng)新時(shí)代
- 倍福推出采用 TwinSAFE SC 技術(shù)的 EtherCAT 端子模塊 EL3453-0090
- TDK推出新的X系列環(huán)保型SMD壓敏電阻
- Vishay 推出新款采用0102、0204和 0207封裝的精密薄膜MELF電阻
- Microchip推出新款交鑰匙電容式觸摸控制器產(chǎn)品 MTCH2120
技術(shù)文章更多>>
- 更高精度、更低噪音 GMCC美芝電子膨脹閥以創(chuàng)新?lián)屨夹袠I(yè)“制高點(diǎn)”
- 本立租完成近億元估值Pre-A輪融資,打造AI賦能的租賃服務(wù)平臺(tái)
- 中微公司成功從美國國防部中國軍事企業(yè)清單中移除
- 華邦電子白皮書:滿足歐盟無線電設(shè)備指令(RED)信息安全標(biāo)準(zhǔn)
- 功率器件熱設(shè)計(jì)基礎(chǔ)(九)——功率半導(dǎo)體模塊的熱擴(kuò)散
技術(shù)白皮書下載更多>>
- 車規(guī)與基于V2X的車輛協(xié)同主動(dòng)避撞技術(shù)展望
- 數(shù)字隔離助力新能源汽車安全隔離的新挑戰(zhàn)
- 汽車模塊拋負(fù)載的解決方案
- 車用連接器的安全創(chuàng)新應(yīng)用
- Melexis Actuators Business Unit
- Position / Current Sensors - Triaxis Hall
熱門搜索
共模電感
固態(tài)盤
固體繼電器
光傳感器
光電池
光電傳感器
光電二極管
光電開關(guān)
光電模塊
光電耦合器
光電器件
光電顯示
光繼電器
光控可控硅
光敏電阻
光敏器件
光敏三極管
光收發(fā)器
光通訊器件
光纖連接器
軌道交通
國防航空
過流保護(hù)器
過熱保護(hù)
過壓保護(hù)
焊接設(shè)備
焊錫焊膏
恒溫振蕩器
恒壓變壓器
恒壓穩(wěn)壓器