小優(yōu)智能科技有限公司成立于2015年底,是一家專注于高精度3D機(jī)器視覺模組研發(fā)、生產(chǎn)及銷售的高科技企業(yè)。
公司自主研發(fā)的3D機(jī)器視覺模組采用激光/DLP白光編碼光柵結(jié)構(gòu)光+雙工業(yè)相機(jī)方案,還原物體三維信息,廣泛應(yīng)用于消費(fèi)電子領(lǐng)域、工業(yè)領(lǐng)域和安防領(lǐng)域,具有精度高、速度快、成本低的優(yōu)勢。
機(jī)器視覺檢測發(fā)展歷程
機(jī)器視覺是指利用相機(jī)、攝像機(jī)等傳感器,配合機(jī)器視覺算法賦予智能設(shè)備人眼的功能,從而實(shí)現(xiàn)物體的識別、檢測、測量等功能。簡單說來,機(jī)器視覺就是用機(jī)器代替人眼來做測量和判斷。機(jī)器視覺是計(jì)算機(jī)視覺的一個(gè)微小分支,是一個(gè)非常新穎并且發(fā)展十分迅速的研究領(lǐng)域,自起步發(fā)展到現(xiàn)在,已有三十多年的發(fā)展歷史,而且作為一種應(yīng)用系統(tǒng),隨著工業(yè)自動(dòng)化的發(fā)展而逐漸完善。
機(jī)器視覺是一種非接觸的測量方式,在一些不適于人工作業(yè)的危險(xiǎn)工作環(huán)境或者人工視覺難以滿足要求的場合,常用機(jī)器視覺來替代人工視覺,而且在大批量重復(fù)性工業(yè)生產(chǎn)過程中,用機(jī)器視覺檢測方法可以大大提高生產(chǎn)的效率和自動(dòng)化程度。進(jìn)入21世紀(jì)以來,機(jī)器視覺技術(shù)發(fā)展迅速且開始大規(guī)模地應(yīng)用于多個(gè)領(lǐng)域。按照應(yīng)用的領(lǐng)域,機(jī)器視覺可以劃分為智能制造、智能生活兩類,比如工業(yè)探傷、自動(dòng)焊接、醫(yī)學(xué)診斷、跟蹤報(bào)警、移動(dòng)機(jī)器人、指紋識別、模擬戰(zhàn)場、智能交通、智能醫(yī)療、無人機(jī)與無人駕駛、智能家居等等?,F(xiàn)在,機(jī)器視覺仍然是一個(gè)非?;钴S的研究領(lǐng)域,與之相關(guān)的學(xué)科涉及:圖像處理、計(jì)算機(jī)圖形學(xué)、模式識別、人工智能、神經(jīng)網(wǎng)絡(luò)等。目前機(jī)器視覺在工業(yè)上的應(yīng)用主要有:測量、外觀檢測、條碼、字符識別、定位等。
人們從20世紀(jì)50年代開始研究二維圖像的統(tǒng)計(jì)模式識別。1965年,L.R.Roberts通過計(jì)算機(jī)程序從數(shù)字圖像中提取出諸如立方體、楔形體、棱柱體等多面體的三維結(jié)構(gòu),并對物體形狀及物體的空間關(guān)系進(jìn)行描述。其研究工作開創(chuàng)了以理解三維場景為目的的三維機(jī)器視覺的研究。人們開始對三維結(jié)構(gòu)進(jìn)行了深入的研究,研究的范圍從角點(diǎn)、邊緣等待征提取,到線條、平面、曲面等幾何要素分析,—直到圖像明暗、紋理、運(yùn)動(dòng)、成像幾何等,并建立了各種數(shù)據(jù)結(jié)構(gòu)和推理規(guī)則。
70年代中,MIT人工智能實(shí)驗(yàn)室正式開設(shè)“機(jī)器視覺”課程,1977 年,David Marr提出了不同于“積木世界”分析方法的計(jì)算機(jī)視覺(computational vision)理論,這就是著名的Marr視覺理論。從80年代開始,興起了全球性的研究熱潮,不僅出現(xiàn)了基于感知特征群的物體識別理論框架、主動(dòng)視覺理論框架、視覺集成理論框架等概念,而且產(chǎn)生了很多新的研究方法和理論。無論是對一般二維信息的處理,還是針對三維圖像模型和算法的研究都有了很大的提高。90年代,機(jī)器視覺理論得到進(jìn)一步的發(fā)展,開始在工業(yè)領(lǐng)域得到應(yīng)用,同時(shí)在多視幾何領(lǐng)域的應(yīng)用也得到快速的發(fā)展。
機(jī)器視覺系統(tǒng)的工作原理是:通過機(jī)器視覺產(chǎn)品(即圖像攝取裝置)將被攝取目標(biāo)轉(zhuǎn)換成圖像信號,傳送給專用的圖像處理系統(tǒng),得到被攝目標(biāo)的形態(tài)信息,根據(jù)像素分布、亮度、顏色等信息,轉(zhuǎn)變成數(shù)字化信號;圖像系統(tǒng)對這些信號進(jìn)行各種運(yùn)算來抽取目標(biāo)的特征,進(jìn)而根據(jù)判別的結(jié)果來控制現(xiàn)場的設(shè)備動(dòng)作。計(jì)算機(jī)視覺關(guān)注的目標(biāo)在于充分理解電磁波(主要是可見光與紅外線部分)遇到物體表面被反射所形成的圖像,而這一過程便是基于光學(xué)物理和固態(tài)物理,解析圖像或視頻所表示的真實(shí)世界。
機(jī)器視覺的經(jīng)典問題是判定一組圖像數(shù)據(jù)中是否包含某個(gè)特定的物體、圖像特征或運(yùn)動(dòng)狀態(tài),這一問題通??梢酝ㄟ^機(jī)器自動(dòng)解決。但是到目前為止,還沒有某個(gè)單一的方法能夠廣泛的對各種情況進(jìn)行判定:在任意環(huán)境中識別任意物體。現(xiàn)有技術(shù)能夠也只能夠很好地解決特定目標(biāo)的識別,比如簡單幾何圖形識別、人臉識別、印刷或手寫文件識別、車輛識別等。而且這些識別需要在特定的環(huán)境中,具有指定的光照、背景和目標(biāo)姿態(tài)要求。
在深度學(xué)習(xí)算法出來之前,對于視覺算法來說,大致可以分為以下5個(gè)步驟:特征感知、圖像預(yù)處理、特征提取、特征篩選、推理預(yù)測與識別。早期的機(jī)器學(xué)習(xí)中,占優(yōu)勢的統(tǒng)計(jì)機(jī)器學(xué)習(xí)群體中,對特征是不大關(guān)心的。特征或者視覺特征,就是把這些數(shù)值給綜合起來用統(tǒng)計(jì)或非統(tǒng)計(jì)的形式,把想識別或檢測的部件或者整體對象表現(xiàn)出來。深度學(xué)習(xí)的流行之前,大部分的設(shè)計(jì)圖像特征就是基于此,即把一個(gè)區(qū)域內(nèi)的像素級別的信息綜合表現(xiàn)出來,利于后面的分類學(xué)習(xí)。手工設(shè)計(jì)特征需要大量的經(jīng)驗(yàn),需要對這個(gè)領(lǐng)域和數(shù)據(jù)特別了解,并且設(shè)計(jì)出來特征還需要大量的調(diào)試工作。另一個(gè)難點(diǎn)在于,機(jī)器視覺工程師不只需要手工設(shè)計(jì)特征,還要在此基礎(chǔ)上有一個(gè)比較合適的分類器算法。同時(shí)設(shè)計(jì)特征然后選擇一個(gè)分類器,這兩者合并達(dá)到最優(yōu)的效果,幾乎是不可能完成的任務(wù)。
于是,學(xué)術(shù)界開始研究開發(fā)不需手動(dòng)設(shè)計(jì)特征、不挑選分類器的機(jī)器視覺系統(tǒng),希望機(jī)器視覺系統(tǒng)同時(shí)學(xué)習(xí)特征和分類器,即輸入某一個(gè)模型的時(shí)候,輸入只是圖片,輸出就是它自己的標(biāo)簽。隨著深度學(xué)習(xí)迅猛發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(CNN)的出現(xiàn)使得該設(shè)想得以實(shí)現(xiàn),基于深度學(xué)習(xí)的計(jì)算機(jī)視覺研究發(fā)展迅速。LeNet在1998年提出了深度學(xué)習(xí)網(wǎng)絡(luò)的最初原型LeNet,輸入圖像是32×32的灰度圖,第一層經(jīng)過了一組卷積和,生成了6個(gè)28X28的feature map,然后經(jīng)過一個(gè)池化層,得到得到6個(gè)14X14的feature map,然后再經(jīng)過一個(gè)卷積層,生成了16個(gè)10X10的卷積層,再經(jīng)過池化層生成16個(gè)5×5的feature map。LeNet從最后16個(gè)5X5的feature map開始,經(jīng)過了3個(gè)全連接層,達(dá)到最后的輸出,輸出就是標(biāo)簽空間的輸出。由于設(shè)計(jì)的是只要對0到9進(jìn)行識別,所以輸出空間是10,如果要對10個(gè)數(shù)字再加上26個(gè)大小字母進(jìn)行識別的話,輸出空間就是62。62維向量里,如果某一個(gè)維度上的值最大,它對應(yīng)的那個(gè)字母和數(shù)字就是就是預(yù)測結(jié)果。
2012年,Hinton課題組的CNN網(wǎng)絡(luò)AlexNet在ImageNet圖像識別比賽,一舉奪得冠軍。2014年牛津大學(xué)幾何視覺組的VGG網(wǎng)絡(luò)在ImageNet圖像識別比賽中奪冠,隨后GoogLeNet、ResNet分別在2014、2015年ImageNet圖像識別奪冠, 2016年歐洲計(jì)算機(jī)視覺大會(huì)上,南京大學(xué)魏秀參的DAN+模型在短視頻表象性格分析競賽(Apparent personality analysis)中奪冠,基于卷積神經(jīng)網(wǎng)絡(luò)的機(jī)器視覺已充分兌現(xiàn)了其發(fā)展?jié)摿Α?/span>
如今,深度學(xué)習(xí)已經(jīng)廣泛應(yīng)用于計(jì)算機(jī)視覺研究,人臉識別、圖像識別、視頻識別、行人檢測、大規(guī)模場景識別的相關(guān)論文里都用到了深度學(xué)習(xí)的方法,深度學(xué)習(xí)可以做到傳統(tǒng)方法無法企及的精度,這是其迅速興起的關(guān)鍵。2012年,深度學(xué)習(xí)在圖像識別領(lǐng)域有重大突破。目前計(jì)算機(jī)視覺在很多應(yīng)用領(lǐng)域達(dá)到了實(shí)用水平,催生了工業(yè)界的大量應(yīng)用。深度學(xué)習(xí)算法的通用性很強(qiáng),基于深度學(xué)習(xí)的算法更加通用,此外,深度學(xué)習(xí)獲得的特征(feature)有很強(qiáng)的遷移能力。例如在ImageNet(物體為主)上學(xué)習(xí)到的特征在場景分類任務(wù)上也能取得非常好的效果。深度學(xué)習(xí)計(jì)算主要是卷積和矩陣乘,針對這種計(jì)算優(yōu)化,所有深度學(xué)習(xí)算法都可以提升性能,所以,深度學(xué)習(xí)的工程開發(fā)、優(yōu)化、維護(hù)成本低。另外,通過組合現(xiàn)有的層(layer),我們可以實(shí)現(xiàn)大量復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)和一些算法,使其開發(fā)維護(hù)的成本進(jìn)一步降低。
在現(xiàn)代化生產(chǎn)中,由于能夠最大程度地提高產(chǎn)品質(zhì)量、降低成本,機(jī)器視覺檢測一直被廣泛用于各類工業(yè)檢測項(xiàng)目上。而隨著工業(yè)制造技術(shù)和加工工藝的提高和改進(jìn),對檢測手段、檢測速度和精度提出的更高要求,也使得機(jī)器視覺檢測技術(shù)在各大行業(yè)建功無數(shù),發(fā)展勢頭強(qiáng)勁??梢灶A(yù)計(jì)的是,隨著機(jī)器視覺技術(shù)自身的成熟和發(fā)展,機(jī)器視覺檢測技術(shù)將在現(xiàn)代和未來制造企業(yè)中得到越來越廣泛的應(yīng)用。