中國(guó)工程院院士潘云鶴: 開(kāi)拓人工智能視覺(jué)知識(shí)的“北大荒”-
發(fā)布時(shí)間:2021-06-08
瀏覽次數(shù):1087
中國(guó)工程院院士潘云鶴: 開(kāi)拓人工智能視覺(jué)知識(shí)的“北大荒”-

?

潘云鶴

■本報(bào)記者 韓揚(yáng)眉

近年來(lái),圖像識(shí)別水平的快速提升推動(dòng)了人工智能熱潮。圖像識(shí)別技術(shù)的突破不僅提高了計(jì)算機(jī)對(duì)人臉、文字、指紋及生物特征、醫(yī)學(xué)圖片等識(shí)別的準(zhǔn)確率,而且進(jìn)一步推動(dòng)了安全監(jiān)控、智能交通、無(wú)人機(jī)、智能制造等多領(lǐng)域的發(fā)展,但其進(jìn)一步發(fā)展也遇到了諸如可解釋、可分析綜合、可設(shè)計(jì)仿真等方面的挑戰(zhàn)。

對(duì)此,在《信息與電子工程前沿》上,中國(guó)工程院院士、浙江大學(xué)教授潘云鶴提出了“視覺(jué)知識(shí)”概念。他認(rèn)為,實(shí)現(xiàn)視覺(jué)知識(shí)表達(dá)、推理、學(xué)習(xí)和應(yīng)用技術(shù)將是人工智能2.0取得突破的關(guān)鍵所在。近日,潘云鶴在接受《中國(guó)科學(xué)報(bào)》專(zhuān)訪(fǎng)時(shí),詳細(xì)闡述了視覺(jué)知識(shí)發(fā)展面臨的5個(gè)基本問(wèn)題。

“認(rèn)知心理學(xué)早已指出,心象是人類(lèi)知識(shí)記憶的重要部分,被用來(lái)進(jìn)行形象思維。視覺(jué)知識(shí)就是計(jì)算機(jī)對(duì)心象的模擬?!迸嗽弃Q指出。

潘云鶴認(rèn)為,視覺(jué)知識(shí)表達(dá)是第一大問(wèn)題。與當(dāng)今人工智能所用的知識(shí)表達(dá)方式不同,視覺(jué)知識(shí)概念具有典型與范疇結(jié)構(gòu)、層次結(jié)構(gòu)與動(dòng)作結(jié)構(gòu)等要素。視覺(jué)概念能構(gòu)成視覺(jué)命題,包括場(chǎng)景結(jié)構(gòu)與動(dòng)態(tài)結(jié)構(gòu);視覺(jué)命題能構(gòu)成視覺(jué)敘事,例如無(wú)聲電影就是視覺(jué)敘事的顯示形式。

不同于言語(yǔ)知識(shí),視覺(jué)知識(shí)的特征是能表達(dá)對(duì)象的大小、色彩、紋理、空間形狀及關(guān)系;能表達(dá)對(duì)象的動(dòng)作、速度及時(shí)間關(guān)系;能進(jìn)行對(duì)象的時(shí)空變換、操作與推理等。事實(shí)上,人類(lèi)記憶中儲(chǔ)存的視覺(jué)知識(shí)遠(yuǎn)多于言語(yǔ)知識(shí)。

視覺(jué)識(shí)別是第二個(gè)問(wèn)題?!皬娜斯ぶ悄茉缙陂_(kāi)始,模式識(shí)別便是最重要的研究領(lǐng)域,其中圖象和視頻識(shí)別是發(fā)展最快的方向。”潘云鶴表示,近年來(lái),深度學(xué)習(xí)提供的方法是,用大量標(biāo)識(shí)的圖像訓(xùn)練出深度神經(jīng)網(wǎng)絡(luò)模型用于圖像識(shí)別,顯著提高了正確率,已獲廣泛應(yīng)用。

但與深度神經(jīng)網(wǎng)絡(luò)模型方法不盡相同,人類(lèi)在工作記憶中進(jìn)行視覺(jué)識(shí)別時(shí),不僅分析視網(wǎng)膜即時(shí)感知后傳入短期記憶中的數(shù)據(jù),而且激活了長(zhǎng)期記憶中過(guò)去學(xué)到的并記住的相關(guān)心象,即視覺(jué)知識(shí)。因此,人類(lèi)在完成視覺(jué)識(shí)別任務(wù)時(shí)往往只需少量數(shù)據(jù),而且可解釋也可推理。

潘云鶴說(shuō),在視覺(jué)識(shí)別中,協(xié)同使用數(shù)據(jù)和視覺(jué)知識(shí),形成數(shù)據(jù)驅(qū)動(dòng)和視覺(jué)知識(shí)指導(dǎo)的協(xié)同計(jì)算范式是視覺(jué)識(shí)別的重要研究方向。

第三、四個(gè)問(wèn)題分別是視覺(jué)形象思維模擬、視覺(jué)知識(shí)學(xué)習(xí)。潘云鶴指出,視覺(jué)形象思維模擬在計(jì)算機(jī)輔助設(shè)計(jì)和仿真、計(jì)算機(jī)動(dòng)畫(huà)、游戲、兒童教育和數(shù)字媒體創(chuàng)意等領(lǐng)域應(yīng)用十分廣泛,計(jì)算機(jī)圖形學(xué)已儲(chǔ)備很多基礎(chǔ)技術(shù),但有待與人工智能打通。

“視覺(jué)知識(shí)學(xué)習(xí)則要將目標(biāo)從三維(3D)形狀的重建提升到視覺(jué)知識(shí)概念和命題的重建?!迸嗽弃Q指出,這就需要對(duì)現(xiàn)有計(jì)算機(jī)視覺(jué)技術(shù)做進(jìn)一步研究——不僅要重建3D形狀,而且要重構(gòu)3D形狀的概念結(jié)構(gòu)與層次結(jié)構(gòu)。在此基礎(chǔ)上,有望發(fā)展出視覺(jué)知識(shí)的自動(dòng)學(xué)習(xí)手段。“當(dāng)前的場(chǎng)景圖研究是向視覺(jué)知識(shí)自動(dòng)學(xué)習(xí)前進(jìn)的一個(gè)合適的中間方法。當(dāng)今,特別需要人工智能、計(jì)算機(jī)圖形學(xué)和計(jì)算機(jī)視覺(jué)3個(gè)領(lǐng)域的研究者聯(lián)手研究?!?/p>

多重知識(shí)表達(dá)是第五大問(wèn)題。潘云鶴認(rèn)為,人腦中的知識(shí)往往通過(guò)多重表達(dá)來(lái)描述,因此,人工智能2.0的知識(shí)應(yīng)有多種表達(dá)方式,包括知識(shí)的言語(yǔ)表達(dá)、深度神經(jīng)網(wǎng)絡(luò)表達(dá)、形象表達(dá)等,多重知識(shí)表達(dá)將形成跨媒體智能和大數(shù)據(jù)智能新的技術(shù)理論和模型。

“視覺(jué)知識(shí)和多重知識(shí)表達(dá)的研究是發(fā)展新的視覺(jué)智能的關(guān)鍵,也是促進(jìn)人工智能2.0取得重要突破的關(guān)鍵理論與技術(shù)。”潘云鶴表示,視覺(jué)知識(shí)的獨(dú)特優(yōu)點(diǎn)是具有形象的綜合生成能力、時(shí)空演化能力和形象顯示能力。人工智能與計(jì)算機(jī)視覺(jué)、計(jì)算機(jī)輔助設(shè)計(jì)、計(jì)算機(jī)圖形學(xué)技術(shù)聯(lián)合,將為人工智能在創(chuàng)造、預(yù)測(cè)和人機(jī)融合等方面的新發(fā)展提供重要的新基礎(chǔ)、新動(dòng)力。

“視覺(jué)知識(shí)是一塊寒濕而肥沃的人工智能的‘北大荒’,也是一塊充滿(mǎn)希望、值得多學(xué)科合作勇探的‘無(wú)人區(qū)’?!迸嗽弃Q呼吁道。

《中國(guó)科學(xué)報(bào)》 (2021-06-08 第1版 要聞)


關(guān)注【深圳科普】微信公眾號(hào),在對(duì)話(huà)框:
回復(fù)【最新活動(dòng)】,了解近期科普活動(dòng)
回復(fù)【科普行】,了解最新深圳科普行活動(dòng)
回復(fù)【研學(xué)營(yíng)】,了解最新科普研學(xué)營(yíng)
回復(fù)【科普課堂】,了解最新科普課堂
回復(fù)【科普書(shū)籍】,了解最新科普書(shū)籍
回復(fù)【團(tuán)體定制】,了解最新團(tuán)體定制活動(dòng)
回復(fù)【科普基地】,了解深圳科普基地詳情
回復(fù)【觀鳥(niǎo)知識(shí)】,學(xué)習(xí)觀鳥(niǎo)相關(guān)科普知識(shí)
回復(fù)【博物學(xué)院】,了解更多博物學(xué)院活動(dòng)詳情

聽(tīng)說(shuō),打賞我的人最后都找到了真愛(ài)。