改善情境化和定制化一直是用戶體驗(yàn)的長(zhǎng)期需求。例如,消費(fèi)者希望終端能夠自動(dòng)利用來(lái)自智能手機(jī)數(shù)據(jù)和傳感器的情境信息和自定義偏好,讓體驗(yàn)更直觀和無(wú)縫,比如基于當(dāng)前位置、時(shí)刻和食物選擇偏好推薦餐廳用餐,創(chuàng)造愉悅體驗(yàn)。
盡管生成式AI已展現(xiàn)出新興的和變革性的能力,但其仍有很大改進(jìn)空間。類似多模態(tài)生成式AI等這樣的技術(shù)可應(yīng)對(duì)生成式AI更加情境化和定制化的體驗(yàn)趨勢(shì)。
多模態(tài)生成式AI模型輸入和輸出多種模態(tài),以提供更佳響應(yīng)和答案
多模態(tài)AI模型能夠更好的理解世界
大語(yǔ)言模型(LLM)為純文本訓(xùn)練模型帶來(lái)了驚艷的能力。如果模型能夠支持包含更多知識(shí)的不同信息形式,能帶來(lái)怎樣的提升呢?
人類能夠通過(guò)語(yǔ)言和閱讀文字學(xué)到很多東西,但也需要通過(guò)各種感官和互動(dòng)形成對(duì)世界的理解:
我們的眼睛讓我們能夠看到球在傾斜地面上滾動(dòng)的場(chǎng)景,以及當(dāng)球滾到沙發(fā)后面會(huì)如何消失。
我們的耳朵可以識(shí)別語(yǔ)音中的情緒或警報(bào)聲來(lái)源的方向。
我們與世界的接觸和互動(dòng)讓我們知道如何用手握住泡沫塑料咖啡杯,以及如何在走路時(shí)避免摔倒。
類似的例子不勝枚舉。
盡管語(yǔ)言可以描述幾乎所有這些事情,但它可能不如其他模態(tài)做得那么好或那么高效。
正如人類需要利用各種感官學(xué)習(xí),生成式AI除了利用文本之外還可以使用更多其他模態(tài)學(xué)習(xí):這正是多模態(tài)生成式AI模型的作用所在。
多模態(tài)生成式AI模型可基于一系列模態(tài)進(jìn)行訓(xùn)練,包括文本、圖像、語(yǔ)音、音頻、視頻、3D、激光雷達(dá)(LIDAR)、射頻(RF)、以及幾乎任何傳感器數(shù)據(jù)。
通過(guò)利用所有這些傳感器,融合數(shù)據(jù),并更全面地理解世界,多模態(tài)生成式AI模型可以提供更佳答案。AI研究人員已經(jīng)做到了這一點(diǎn),他們利用不同模態(tài)的一系列數(shù)據(jù)在云端訓(xùn)練多模態(tài)大模型(LMM),讓模型更“智能”。OpenAIGPT-4V和谷歌Gemini就是這類LMM。
這能給用戶帶來(lái)什么?舉例來(lái)說(shuō),LMM可以充當(dāng)通用助手,接收任何模態(tài)的輸入,為更廣泛的問(wèn)題類型提供大幅改進(jìn)的答案。比如基于復(fù)雜的停車(chē)標(biāo)志回答用戶可否停車(chē),或基于振動(dòng)噪音回答用戶該如何修理洗碗機(jī)故障。
下一步,部署LMM進(jìn)行推理:盡管生成式AI推理可在云端運(yùn)行,但在邊緣終端側(cè)運(yùn)行有著諸多好處,比如隱私、可靠性、成本效益和即時(shí)性。
例如,傳感器和相應(yīng)的傳感器數(shù)據(jù)來(lái)源于邊緣終端,因此在終端側(cè)處理和保存數(shù)據(jù)更具成本效益和可擴(kuò)展性。
終端側(cè)LLM現(xiàn)在具備視覺(jué)理解能力
高通AI研究近期演示了全球首個(gè)在Android手機(jī)上運(yùn)行的多模態(tài)LLM。我們展示了一個(gè)超過(guò)70億參數(shù)的大語(yǔ)言和視覺(jué)助理大模型(LLaVA),其可接受包括文本和圖像在內(nèi)的多種類型的數(shù)據(jù)輸入,并生成關(guān)于圖像的多輪對(duì)話。通過(guò)全棧AI優(yōu)化,LLaVA能夠在搭載第三代驍龍8移動(dòng)平臺(tái)的參考設(shè)計(jì)上以實(shí)時(shí)響應(yīng)的速度在終端側(cè)生成token。
具有語(yǔ)言理解和視覺(jué)理解能力的LMM能夠賦能諸多用例,例如識(shí)別和討論復(fù)雜的視覺(jué)圖案、物體和場(chǎng)景。
例如,視覺(jué)AI助手可以幫助視力障礙者更好地理解周?chē)h(huán)境并與之互動(dòng),從而提高生活質(zhì)量。
終端側(cè)LLM現(xiàn)在具備聽(tīng)覺(jué)理解能力
在搭載驍龍XElite的WindowsPC上,高通近期還展示了全球首個(gè)在終端側(cè)運(yùn)行的超70億參數(shù)的LMM,可接受文本和環(huán)境音頻輸入(如音樂(lè)、交通環(huán)境音頻等),并基于音頻內(nèi)容生成多輪對(duì)話。
音頻提供的更多情境信息可以幫助LMM針對(duì)用戶的提示給出更佳答案。我們很高興看到終端側(cè)LMM現(xiàn)已支持視覺(jué)、語(yǔ)音和音頻模態(tài),并期待對(duì)更多模態(tài)的支持。
生成式AI時(shí)代剛剛開(kāi)始,無(wú)限創(chuàng)新即將到來(lái)
更多終端側(cè)生成式AI技術(shù)進(jìn)步即將到來(lái)
打造能夠更好理解情境信息的AI模型是獲得更佳答案和體驗(yàn)提升的必要條件,多模態(tài)生成式AI正是即將應(yīng)用于未來(lái)終端的最新變革性技術(shù)之一。歡迎閱讀博客第二部分,我將深入介紹LoRA,探究它將如何幫助應(yīng)對(duì)現(xiàn)有挑戰(zhàn),為消費(fèi)者和企業(yè)規(guī)模化提供情境化、定制化和個(gè)性化體驗(yàn)。