AI太傻分不清東西?3D點(diǎn)云+GAN讓機(jī)器人“眼神”更犀利!
隨著 AI、機(jī)器人技術(shù)的不斷發(fā)展,人們的生活得到了“AI 機(jī)器人們”的各種幫助:大到太空機(jī)器人輔助宇航任務(wù),小到家用掃地機(jī)器人解放我們的雙手,可以說(shuō),機(jī)器人在人類生活中充當(dāng)?shù)慕巧絹?lái)越多樣。
但你知道嗎?目前用于室內(nèi)任務(wù)、尤其是需要與環(huán)境進(jìn)行頻繁交互的機(jī)器人,其視覺(jué)靈敏度仍需進(jìn)一步提高——許多機(jī)器人在面對(duì)相似物體時(shí),并不能辨別出其中的細(xì)微區(qū)別。
近日,來(lái)自德克薩斯大學(xué)阿靈頓分校(University of Texas at Arlington,UTA)的一個(gè)研究團(tuán)隊(duì),提出了一種名為 PCGAN 的方法。相關(guān)研究論文以“A Progressive Conditional Generative Adversarial Network for Generating Dense and Colored 3D Point Clouds”為題,發(fā)表在預(yù)印本網(wǎng)站 arXiv 上。
研究人員表示,這是第一個(gè)以無(wú)監(jiān)督方式生成 3D 點(diǎn)云(3D point cloud)的條件生成對(duì)抗網(wǎng)絡(luò)(GAN),該網(wǎng)絡(luò)能夠產(chǎn)生具有多分辨率和精細(xì)細(xì)節(jié)的 3D 彩色點(diǎn)云,以生成利于辨別的物體圖像,這將極有利于機(jī)器人視覺(jué)靈敏度的提升。話不多說(shuō),先上圖。
圖 | real 列為真實(shí)物體的 3D 點(diǎn)云圖像,后列為 PCGAN 產(chǎn)生的的結(jié)果(來(lái)源:該論文)
圖像不逼真怎么辦
想象一下,家里的掃地機(jī)器人是如何工作的?一般來(lái)說(shuō),這類需要與環(huán)境交互的機(jī)器人首先需要在已構(gòu)建的環(huán)境中完成導(dǎo)航任務(wù),這就要求機(jī)器人必須能夠感知環(huán)境情況并實(shí)時(shí)做出決策,決定當(dāng)前如何與其周?chē)h(huán)境進(jìn)行交互。
而要想讓機(jī)器人具有這種自我決策能力,科學(xué)家們則需要使用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等方法來(lái)訓(xùn)練 Ta 們:通過(guò)將收集到的大量圖像數(shù)據(jù)集用作訓(xùn)練數(shù)據(jù),來(lái)訓(xùn)練機(jī)器人應(yīng)對(duì)各種不同物體或環(huán)境時(shí)應(yīng)該做出的正確反應(yīng)。
要實(shí)現(xiàn)這一點(diǎn),一方面一些人會(huì)使用手動(dòng)方法來(lái)收集圖像數(shù)據(jù),比如通過(guò)使用昂貴的 360 度全景攝像頭來(lái)捕獲房屋環(huán)境,或者先拍攝局部圖片再使用各類軟件將單個(gè)圖像拼接成房屋全景圖像。但很明顯,這種手動(dòng)捕獲方法效率太低,無(wú)法滿足需要大量數(shù)據(jù)的訓(xùn)練要求。
另一方面,盡管手握數(shù)百萬(wàn)房的間照片和視頻,但這些數(shù)據(jù)都不是從像掃地機(jī)器人所處的有利位置進(jìn)行拍攝的。于是,嘗試使用以人為中心的視角的圖像來(lái)訓(xùn)練機(jī)器人也不可取。
于是,此次的研究小組轉(zhuǎn)向使用一種被稱為生成對(duì)抗網(wǎng)絡(luò)的深度學(xué)習(xí)方式來(lái)創(chuàng)造足夠逼真的圖像,用來(lái)訓(xùn)練機(jī)器人以提高其辨別環(huán)境的能力。
作為生成模型的一種,GAN 的主要結(jié)構(gòu)包括兩個(gè)神經(jīng)網(wǎng)絡(luò):生成器(Generator)和判別器(Discriminator)。生成器不斷生成假圖像,判別器則判斷這些圖像的真假。兩個(gè)神經(jīng)網(wǎng)絡(luò)就這樣相互競(jìng)爭(zhēng),最終形成非常強(qiáng)的制造樣本的能力。一旦經(jīng)過(guò)培訓(xùn),這樣的網(wǎng)絡(luò)將能夠創(chuàng)建無(wú)數(shù)可能的室內(nèi)或室外環(huán)境,其中放置著多種多樣的桌椅或車(chē)輛等物體。這些物件之間的差別將變得很微小,但對(duì)于人和機(jī)器人來(lái)說(shuō),其圖像仍帶有可識(shí)別的尺寸和特征。
PCGAN:更清晰的 3D 點(diǎn)云圖像
整個(gè)研究小組由 UTA 的計(jì)算機(jī)科學(xué)與工程學(xué)系助理教授 William Beksi和他的六名博士學(xué)生組成。參與這項(xiàng)研究的博士生 Mohammad Samiul Arshad 表示:“手動(dòng)設(shè)計(jì)這些對(duì)象將耗費(fèi)大量資源和人力,而如果進(jìn)行適當(dāng)?shù)呐嘤?xùn),生成網(wǎng)絡(luò)就可以在幾秒鐘之內(nèi)完成同樣的任務(wù)!
此次研究中的圖像數(shù)據(jù)則通過(guò) 3D 點(diǎn)云呈現(xiàn),這是一種透過(guò) 3D 掃描器所取得的物體圖像形式,它以點(diǎn)的形式記錄對(duì)象,每一個(gè)點(diǎn)包含有三維座標(biāo),強(qiáng)度信息(可以反映目標(biāo)物體的材質(zhì)、粗糙度、入射角方向等信息),還可能含有色彩信息(RGB)。
對(duì)此,Beksi 解釋道:“我們可以將它們移動(dòng)到新位置,甚至使用不同的燈光、顏色和紋理,將它們渲染為可在數(shù)據(jù)集中使用的訓(xùn)練圖像。這種方法可能會(huì)提供無(wú)限的數(shù)據(jù)來(lái)訓(xùn)練機(jī)器人。”
圖 | PCGAN 合成的 3D 點(diǎn)云圖像,飛機(jī)、桌椅等(來(lái)源:該論文)
在實(shí)驗(yàn)中,研究人員以 ShapeNetCore 作為數(shù)據(jù)集,ShapeNetCore 是各種對(duì)象類的 CAD 模型的集合。他們選擇了椅子、桌子、沙發(fā)、飛機(jī)和摩托車(chē)圖像進(jìn)行實(shí)驗(yàn),以滿足物體形狀的多樣性;并將每個(gè)類別的數(shù)量確定為 5 個(gè),以減少訓(xùn)練時(shí)間。此外,還消除了所有沒(méi)有材料和顏色信息的 CAD 模型。
他解釋說(shuō):“我們的模型首先學(xué)習(xí)低分辨率對(duì)象的基本結(jié)構(gòu),然后逐步建立高級(jí)細(xì)節(jié)。例如對(duì)象的各個(gè)部分及其顏色之間的關(guān)系——椅子/桌子的腿是相同的顏色而座椅/車(chē)頂?shù)念伾珓t截然不同。我們建立層次結(jié)構(gòu)以進(jìn)行完整的合成場(chǎng)景生成,這對(duì)于機(jī)器人技術(shù)將非常有用。”
他們?yōu)槊總(gè)類別生成了 5,000 個(gè)隨機(jī)樣本,并使用多種不同的方法進(jìn)行了評(píng)估。他們使用該領(lǐng)域的各種常用指標(biāo)評(píng)估了點(diǎn)云的幾何形狀和顏色。結(jié)果表明,PCGAN 能夠?yàn)椴煌N類的對(duì)象類別合成高質(zhì)量的點(diǎn)云。
One small step
盡管 PCGAN 的確優(yōu)于一些傳統(tǒng)的樣本訓(xùn)練方法,但正如 Beksi 所說(shuō):“此次研究只是朝最終目標(biāo)邁出的一小步,我們的最終目標(biāo)是生成足夠逼真的室內(nèi)全景圖,以提高機(jī)器人的感知能力!
此外,Beksi 還正在研究另一個(gè)問(wèn)題——Sim2real。Sim2real 著眼于如何通過(guò)捕捉場(chǎng)景的物理特性(摩擦,碰撞,重力)以及使用射線或光子追蹤來(lái)量化細(xì)微差異,并使仿真圖像更加逼真。
他說(shuō):“如果是由于增加分辨率而包含更多的點(diǎn)和細(xì)節(jié),那么代價(jià)就是計(jì)算成本的增加! 除計(jì)算需求外,Beksi 還需要大量存儲(chǔ)來(lái)進(jìn)行研究。研究團(tuán)隊(duì)每秒產(chǎn)生數(shù)百兆的數(shù)據(jù),每個(gè)點(diǎn)云大約有 100 萬(wàn)個(gè)點(diǎn),因此,這些訓(xùn)練數(shù)據(jù)集非常龐大,需要大量的存儲(chǔ)空間。
接下來(lái),Beksi 團(tuán)隊(duì)希望將軟件部署在機(jī)器人上,并查看它與模擬真實(shí)的領(lǐng)域之間還存在何種差距。當(dāng)然,盡管要擁有真正強(qiáng)大的、可以長(zhǎng)時(shí)間自主運(yùn)行的機(jī)器人還有很長(zhǎng)一段路要走,但研究人員的工作必將有益于多個(gè)領(lǐng)域,比如醫(yī)療保健、制造業(yè)和農(nóng)業(yè)等。
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
即日-12.26立即報(bào)名>>> 【在線會(huì)議】村田用于AR/VR設(shè)計(jì)開(kāi)發(fā)解決方案
-
1月8日火熱報(bào)名中>> Allegro助力汽車(chē)電氣化和底盤(pán)解決方案優(yōu)化在線研討會(huì)
-
即日-1.14火熱報(bào)名中>> OFweek2025中國(guó)智造CIO在線峰會(huì)
-
即日-1.24立即參與>>> 【限時(shí)免費(fèi)】安森美:Treo 平臺(tái)帶來(lái)出色的精密模擬
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書(shū)》
-
精彩回顧立即查看>> 【線下會(huì)議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
推薦專題
- 1 人形機(jī)器人核心零部件,誰(shuí)是盈利最強(qiáng)企業(yè)?
- 2 AI Agent現(xiàn)狀如何?聊聊近期國(guó)內(nèi)的智能體市場(chǎng)動(dòng)向
- 3 5nm重大突破,研祥智能助力半導(dǎo)體企業(yè)高效發(fā)展!
- 4 人形機(jī)器人引爆“PEEK材料”!概念股梳理(名單)
- 5 馬云沒(méi)回牌桌,但重注全壓在了
- 6 蘋(píng)果或?qū)渴肿止?jié)騰訊大模型,我國(guó)大模型產(chǎn)業(yè)發(fā)展駛?cè)肟燔?chē)道
- 7 豆包AI登頂國(guó)內(nèi)第一!概念股梳理(名單)
- 8 押注AI王者歸來(lái),歌爾股份“智能體”在下一盤(pán)“大棋”
- 9 AI超級(jí)應(yīng)用什么時(shí)候才能出現(xiàn)?
- 10 英偉達(dá)迎來(lái)當(dāng)頭一棒
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門(mén)市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市