繼ChatGPT上線一周年之后,近日,谷歌的多模態(tài)Gemini忽然上線,被業(yè)界視為“谷歌最強反擊戰(zhàn)開啟”。投資機構(gòu)針對Gemini的討論“炸開了鍋”。業(yè)內(nèi)人士認為,Gemini在視覺識別和推理推斷方面有顯著優(yōu)化,落到商業(yè)場景上,實時交互場景或成為多模態(tài)人工智能模型應(yīng)用的焦點。
Gemini“太震撼”
近日,谷歌CEO桑達爾·皮查伊宣布Gemini1.0版正式上線。Google DeepMind產(chǎn)品副總裁伊萊·柯林斯表示,這是Google迄今為止功能最強大、最通用的大模型。
據(jù)了解,和市面上現(xiàn)有大模型相比,Gemini從一開始就被創(chuàng)建為多模態(tài)的模型,這意味著它可以歸納并流暢地理解、操作以及組合不同類型的信息,包括文本、代碼、音頻、圖像和視頻。在靈活度上,從數(shù)據(jù)中心到移動設(shè)備上,它都能夠運行。
在觀看Gemini系列演示視頻后,不少投資人表示“太震撼”?!翱戳薌emini的演示視頻,其所表現(xiàn)出來的對多模態(tài)理解的能力非常驚人,此外,Gemini所表現(xiàn)出來的推理能力目前看來是超過ChatGPT的?!北本┼]電大學(xué)計算機學(xué)院副教授孫海峰表示,一方面,在多模態(tài)信息處理上,Gemini遠超OpenAI的ChatGPT。Gemini既可以支持多模態(tài)信息輸入,也支持多模態(tài)信息輸出。Gemini一個典型的特點是支持文本、圖像、音頻和視頻的交錯序列作為輸入,這對于ChatGPT或者傳統(tǒng)架構(gòu)的多模態(tài)大模型來講,是很難實現(xiàn)的。通常來講,ChatGPT僅僅支持文字的輸出,其他模態(tài)的輸出需要調(diào)用第三方API來實現(xiàn)。Gemini這種交錯序列的輸入方式更符合絕大多數(shù)場景的需求。另一方面,在Gemini的技術(shù)報告中,其在MMLU數(shù)據(jù)集測試中的準確率達到了90.04%,超過了人類專家,其推理能力的進化具有里程碑意義。
在Gemini上線后的一天,谷歌被外界質(zhì)疑稱,多模態(tài)視頻是剪輯拼貼的,Gemini涉嫌夸大宣傳。谷歌官方也給予了解釋:視頻的確有后期制作和剪輯的成分,Gemini所有交互不是實時感知到,而是工作人員給予圖片和提示之后的效果,即Gemini在讀取視頻方面還有待進一步發(fā)展。
實時交互場景或是商業(yè)化焦點
受此消息的影響,國內(nèi)投資人針對多模態(tài)技術(shù)及其應(yīng)用展開熱議。
某科技賽道的一級投資人表示,相較ChatGPT-4,Gemini的識圖和推理能力,以及目前看上去的響應(yīng)速度有很大進步。他個人認為,Gemini與OpenAI的產(chǎn)品各有千秋,商業(yè)化落地方面還需要找到合適的場景?!坝泻线m的場景適配,并找到增值需求還是關(guān)鍵,但Gemini確實是將AI模型的想象空間進一步打開了?!?/span>
“可以大膽想象,當(dāng)多模態(tài)模型運行在機器人(11.640, -0.05, -0.43%)身上,可能實現(xiàn)具身智能,另外,當(dāng)多模態(tài)模型和谷歌眼鏡結(jié)合時,或?qū)⑸墳槌壷悄荏w。”另一位投資人表示。
某技術(shù)人士介紹,人類有五種感官,我們所建造的世界、所消費的媒體,都是以這樣的方式所呈現(xiàn)。而多模態(tài)模型意味著Gemini可以用和人類一樣的方式理解周圍的世界,并且吸收任何類型的輸入和輸出——無論是文字,還是代碼、音頻、圖像、視頻。其中最關(guān)鍵的技術(shù),是如何混合所有這些模式,如何從任意數(shù)量的輸入和感官中收集盡可能多的數(shù)據(jù),然后給出同樣多樣化的響應(yīng)。
“Gemini更像人了,更貼近人的視覺識別和一些推理判斷,OpenAI的ChatGPT更多像一個大知識庫,它能夠給人提供信息參考。兩者不是誰超越誰,而是側(cè)重方向有顯著不同?!蹦惩顿Y人表示。
孫海峰表示,目前還不太清楚Gemini的具體實現(xiàn)結(jié)構(gòu)是什么樣的,但是這種對多種模態(tài)信息可以交錯序列作為輸入方式的模式,是許多場景、尤其是實時交互場景非常需要的。
另一位科技投資人認為,Gemini的發(fā)布意味著大廠在人工智能方面具有先發(fā)優(yōu)勢更加確定,比如谷歌的Gemini視覺推理方面能力突出,是因為他們有基于搜索引擎的各種資料作為大量的訓(xùn)練數(shù)據(jù)。此外,大廠在數(shù)據(jù)、流量、資金、算力以及應(yīng)用場景上的優(yōu)勢都很明顯。
來源:中證網(wǎng)