聽技術(shù)牛人講解:手勢識(shí)別技術(shù)是什么?
發(fā)布時(shí)間:2015-03-02 責(zé)任編輯:sherryyu
【導(dǎo)讀】說到手勢識(shí)別大家并不陌生,想得到的是二維手型識(shí)別、二維手勢識(shí)別、三維手勢識(shí)別這幾個(gè)名詞,但是到底手勢識(shí)別技術(shù)是什么?怎么定義的?又是如何工作的呢?請(qǐng)看下文詳解!
談起手勢識(shí)別技術(shù),由簡單粗略的到復(fù)雜精細(xì)的,大致可以分為三個(gè)等級(jí):二維手型識(shí)別、二維手勢識(shí)別、三維手勢識(shí)別。在具體討論手勢識(shí)別之前,我們有必要先知道二維和三維的差別。二維只是一個(gè)平面空間,我們可以用(X坐標(biāo),Y坐標(biāo))組成的坐標(biāo)信息來表示一個(gè)物體在二維空間中的坐標(biāo)位置,就像是一幅畫出現(xiàn)在一面墻上的位置。三維則在此基礎(chǔ)上增加了“深度”(Z坐標(biāo))的信息,這是二維所不包含的。這里的“深度”并不是咱們現(xiàn)實(shí)生活中所說的那個(gè)深度,這個(gè)“深度”表達(dá)的是“縱深”,理解為相對(duì)于眼睛的“遠(yuǎn)度”也許更加貼切。就像是魚缸中的金魚,它可以在你面前上下左右的游動(dòng),也可能離你更遠(yuǎn)或者更近。
前兩種手勢識(shí)別技術(shù),完全是基于二維層面的,它們只需要不含深度信息的二維信息作為輸入即可。就像平時(shí)拍照所得的相片就包含了二維信息一樣,我們只需要使用單個(gè)攝像頭捕捉到的二維圖像作為輸入,然后通過計(jì)算機(jī)視覺技術(shù)對(duì)輸入的二維圖像進(jìn)行分析,獲取信息,從而實(shí)現(xiàn)手勢識(shí)別。
而第三種手勢識(shí)別技術(shù),是基于三維層面的。三維手勢識(shí)別與二維手勢識(shí)別的最根本區(qū)別就在于,三維手勢識(shí)別需要的輸入是包含有深度的信息,這就使得三維手勢識(shí)別在硬件和軟件兩方面都比二維手勢識(shí)別要復(fù)雜得多。對(duì)于一般的簡單操作,比如只是想在播放視頻的時(shí)候暫停或者繼續(xù)放映,二維手勢也就足夠了。但是對(duì)于一些復(fù)雜的人機(jī)交互,比如玩游戲或者應(yīng)用在VR(虛擬現(xiàn)實(shí))上,三維手勢實(shí)在是居家旅行必備、舍我其誰的不二之選。
手勢識(shí)別分類
二維手型識(shí)別
二維手型識(shí)別,也可稱為靜態(tài)二維手勢識(shí)別,識(shí)別的是手勢中最簡單的一類。這種技術(shù)在獲取二維信息輸入之后,可以識(shí)別幾個(gè)靜態(tài)的手勢,比如握拳或者五指張開。其代表公司是一年前被Google收購的Flutter。在使用了他家的軟件之后,用戶可以用幾個(gè)手型來控制播放器。用戶將手掌舉起來放到攝像頭前,視頻就開始播放了;再把手掌放到攝像頭前,視頻又暫停了。
“靜態(tài)”是這種二維手勢識(shí)別技術(shù)的重要特征,這種技術(shù)只能識(shí)別手勢的“狀態(tài)”,而不能感知手勢的“持續(xù)變化”。舉個(gè)例子來說,如果將這種技術(shù)用在猜拳上的話,它可以識(shí)別出石頭、剪刀和布的手勢狀態(tài)。但是對(duì)除此之外的手勢,它就一無所知了。所以這種技術(shù)說到底是一種模式匹配技術(shù),通過計(jì)算機(jī)視覺算法分析圖像,和預(yù)設(shè)的圖像模式進(jìn)行比對(duì),從而理解這種手勢的含義。
這種技術(shù)的不足之處顯而易見:只可以識(shí)別預(yù)設(shè)好的狀態(tài),拓展性差,控制感很弱,用戶只能實(shí)現(xiàn)最基礎(chǔ)的人機(jī)交互功能。但是它是識(shí)別復(fù)雜手勢的第一步,而且我們的確可以通過手勢和計(jì)算機(jī)互動(dòng)了,還是很酷的不是么?想象一下你忙著吃飯,只要憑空做個(gè)手勢,計(jì)算機(jī)就可以切換到下一個(gè)視頻,比使用鼠標(biāo)來控制可是方便多了!
二維手勢識(shí)別
二維手勢識(shí)別,比起二維手型識(shí)別來說稍難一些,但仍然基本不含深度信息,停留在二維的層面上。這種技術(shù)不僅可以識(shí)別手型,還可以識(shí)別一些簡單的二維手勢動(dòng)作,比如對(duì)著攝像頭揮揮手。其代表公司是來自以色列的PointGrab,EyeSight和ExtremeReality。
二維手勢識(shí)別擁有了動(dòng)態(tài)的特征,可以追蹤手勢的運(yùn)動(dòng),進(jìn)而識(shí)別將手勢和手部運(yùn)動(dòng)結(jié)合在一起的復(fù)雜動(dòng)作。這樣一來,我們就把手勢識(shí)別的范圍真正拓展到二維平面了。我們不僅可以通過手勢來控制計(jì)算機(jī)播放/暫停,我們還可以實(shí)現(xiàn)前進(jìn)/后退/向上翻頁/向下滾動(dòng)這些需求二維坐標(biāo)變更信息的復(fù)雜操作了。
這種技術(shù)雖然在硬件要求上和二維手型識(shí)別并無區(qū)別,但是得益于更加先進(jìn)的計(jì)算機(jī)視覺算法,可以獲得更加豐富的人機(jī)交互內(nèi)容。在使用體驗(yàn)上也提高了一個(gè)檔次,從純粹的狀態(tài)控制,變成了比較豐富的平面控制。這種技術(shù)已經(jīng)被集成到了電視里,但是目前還是以噱頭為主,還不能成為電視的主要常用控制方式。
三維手勢識(shí)別
接下來我們要談的就是當(dāng)今手勢識(shí)別領(lǐng)域的重頭戲——三維手勢識(shí)別。三維手勢識(shí)別需要的輸入是包含有深度的信息,可以識(shí)別各種手型、手勢和動(dòng)作。相比于前兩種二維手勢識(shí)別技術(shù),三維手勢識(shí)別不能再只使用單個(gè)普通攝像頭,因?yàn)閱蝹€(gè)普通攝像頭無法提供深度信息。要得到深度信息需要特別的硬件,目前世界上主要有3種硬件實(shí)現(xiàn)方式。加上新的先進(jìn)的計(jì)算機(jī)視覺軟件算法就可以實(shí)現(xiàn)三維手勢識(shí)別了。下面就讓小編為大家一一道來三維手勢識(shí)別的三維成像硬件原理。
1結(jié)構(gòu)光(Structure Light)
結(jié)構(gòu)光的代表應(yīng)用產(chǎn)品就是PrimeSense公司為大名鼎鼎的微軟家XBOX 360所做的Kinect一代了。這種技術(shù)的基本原理是,加載一個(gè)激光投射器,在激光投射器外面放一個(gè)刻有特定圖樣的光柵,激光通過光柵進(jìn)行投射成像時(shí)會(huì)發(fā)生折射,從而使得激光最終在物體表面上的落點(diǎn)產(chǎn)生位移。當(dāng)物體距離激光投射器比較近的時(shí)候,折射而產(chǎn)生的位移就較??;當(dāng)物體距離較遠(yuǎn)時(shí),折射而產(chǎn)生的位移也就會(huì)相應(yīng)的變大。這時(shí)使用一個(gè)攝像頭來檢測采集投射到物體表面上的圖樣,通過圖樣的位移變化,就能用算法計(jì)算出物體的位置和深度信息,進(jìn)而復(fù)原整個(gè)三維空間。
以Kinect一代的結(jié)構(gòu)光技術(shù)來說,因?yàn)橐蕾囉诩す庹凵浜螽a(chǎn)生的落點(diǎn)位移,所以在太近的距離上,折射導(dǎo)致的位移尚不明顯,使用該技術(shù)就不能太精確的計(jì)算出深度信息,所以1米到4米是其最佳應(yīng)用范圍。
2光飛時(shí)間(Time of Flight)
光飛時(shí)間是SoftKinetic公司所采用的技術(shù),該公司為業(yè)界巨鱷Intel提供帶手勢識(shí)別功能的三維攝像頭。同時(shí),這一硬件技術(shù)也是微軟新一代Kinect所使用的。這種技術(shù)的基本原理是加載一個(gè)發(fā)光元件,發(fā)光元件發(fā)出的光子在碰到物體表面后會(huì)反射回來。使用一個(gè)特別的CMOS傳感器來捕捉這些由發(fā)光元件發(fā)出、又從物體表面反射回來的光子,就能得到光子的飛行時(shí)間。根據(jù)光子飛行時(shí)間進(jìn)而可以推算出光子飛行的距離,也就得到了物體的深度信息。
就計(jì)算上而言,光飛時(shí)間是三維手勢識(shí)別中最簡單的,不需要任何計(jì)算機(jī)視覺方面的計(jì)算。
3多角成像(Multi-camera)
多角成像這一技術(shù)的代表產(chǎn)品是Leap Motion公司的同名產(chǎn)品和Usens公司的Fingo。
這種技術(shù)的基本原理是使用兩個(gè)或者兩個(gè)以上的攝像頭同時(shí)攝取圖像,就好像是人類用雙眼、昆蟲用多目復(fù)眼來觀察世界,通過比對(duì)這些不同攝像頭在同一時(shí)刻獲得的圖像的差別,使用算法來計(jì)算深度信息,從而多角三維成像。
在這里我們以兩個(gè)攝像頭成像來簡單解釋一下:
雙攝像頭測距是根據(jù)幾何原理來計(jì)算深度信息的。使用兩臺(tái)攝像機(jī)對(duì)當(dāng)前環(huán)境進(jìn)行拍攝,得到兩幅針對(duì)同一環(huán)境的不同視角照片,實(shí)際上就是模擬了人眼工作的原理。因?yàn)閮膳_(tái)攝像機(jī)的各項(xiàng)參數(shù)以及它們之間相對(duì)位置的關(guān)系是已知的,只要找出相同物體(楓葉)在不同畫面中的位置,我們就能通過算法計(jì)算出這個(gè)物體(楓葉)距離攝像頭的深度了。
多角成像是三維手勢識(shí)別技術(shù)中硬件要求最低,但同時(shí)是最難實(shí)現(xiàn)的。多角成像不需要任何額外的特殊設(shè)備,完全依賴于計(jì)算機(jī)視覺算法來匹配兩張圖片里的相同目標(biāo)。相比于結(jié)構(gòu)光或者光飛時(shí)間這兩種技術(shù)成本高、功耗大的缺點(diǎn),多角成像能提供“價(jià)廉物美”的三維手勢識(shí)別效果。
特別推薦
- 兆易創(chuàng)新GD32F30x STL軟件測試庫獲得德國萊茵TüV IEC 61508功能安全認(rèn)證
- 芯科科技第三代無線開發(fā)平臺(tái)引領(lǐng)物聯(lián)網(wǎng)發(fā)展
- MSO 4B 示波器為工程師帶來更多臺(tái)式功率分析工具
- 艾為電子推出新一代高線性度GNSS低噪聲放大器——AW15745DNR
- 瑞薩發(fā)布四通道主站IC和傳感器信號(hào)調(diào)節(jié)器, 以推動(dòng)不斷增長的IO-Link市場
- e絡(luò)盟現(xiàn)貨供應(yīng) Abracon 新推出的 AOTA 系列微型鑄型電感器
- 加賀富儀艾電子推出支持Wi-Fi 6和藍(lán)牙的無線局域網(wǎng)/藍(lán)牙組合模塊
技術(shù)文章更多>>
- 一文掌握UV LED在空凈消殺領(lǐng)域的主要應(yīng)用
- 聚焦汽車智能化與電動(dòng)化︱AUTO TECH 2025 華南展11月,已全面啟動(dòng),邀您共精彩!
- 【“源”察秋毫系列】 Keithley在碳納米管森林涂層纖維復(fù)合材料的應(yīng)用
- 數(shù)字驅(qū)動(dòng)工業(yè),智能賦能制造 AMTS & AHTE SOUTH CHINA 2024同期會(huì)議全公開!
- 團(tuán)體觀展招募!104CEF開啟組團(tuán)觀眾通道,解鎖更多禮遇
技術(shù)白皮書下載更多>>
- 車規(guī)與基于V2X的車輛協(xié)同主動(dòng)避撞技術(shù)展望
- 數(shù)字隔離助力新能源汽車安全隔離的新挑戰(zhàn)
- 汽車模塊拋負(fù)載的解決方案
- 車用連接器的安全創(chuàng)新應(yīng)用
- Melexis Actuators Business Unit
- Position / Current Sensors - Triaxis Hall
熱門搜索
車載以太網(wǎng)
車載娛樂
充電
充電電池
充電器
充電樁
觸控屏
觸控顯示
觸摸開關(guān)
傳感技術(shù)
傳感器
傳感器模塊
船型開關(guān)
串聯(lián)電阻公式
創(chuàng)智成
磁傳感器
磁環(huán)電感
磁敏三極管
磁性存儲(chǔ)器
磁性元件
磁珠電感
存儲(chǔ)器
大功率管
單向可控硅
刀開關(guān)
等離子顯示屏
低頻電感
低通濾波器
低音炮電路
滌綸電容