近日,人工智能領(lǐng)域的領(lǐng)軍企業(yè)OpenAI發(fā)布了全新的AI模型GPT-4o,這一重大突破被譽(yù)為“一夜改變?nèi)藱C(jī)交互歷史”。GPT-4o不僅支持語(yǔ)音聊天,還能進(jìn)行實(shí)時(shí)視頻交互,其絲滑程度堪比真人交互。這一技術(shù)的問(wèn)世,無(wú)疑將為人工智能領(lǐng)域帶來(lái)新的發(fā)展機(jī)遇。
OpenAI的野心
OpenAI的旗艦產(chǎn)品ChatGPT雖然能理解自然語(yǔ)言并回答用戶(hù)的問(wèn)題,但由于其“預(yù)訓(xùn)練”的原理,無(wú)法即時(shí)搜索內(nèi)容。此外,大語(yǔ)言模型的生成機(jī)制也使得ChatGPT無(wú)法完全規(guī)避“一本正經(jīng)地胡說(shuō)八道”的現(xiàn)象。因此,人們想要了解最新的實(shí)時(shí)內(nèi)容,仍然需要求助于搜索引擎。
傳統(tǒng)搜索引擎基于關(guān)鍵詞匹配,即根據(jù)用戶(hù)輸入的關(guān)鍵詞識(shí)別檢索范圍,并匹配可能符合用戶(hù)意圖的海量信息。然而,傳統(tǒng)搜索的痛點(diǎn)在于不同來(lái)源的海量信息帶來(lái)的大量冗余和信息不一致,這也導(dǎo)致搜出來(lái)的信息一大堆,但找不到有用的東西。
OpenAI顯然希望成為人類(lèi)和數(shù)據(jù)的重要連接點(diǎn),僅靠ChatGPT(哪怕是再聰明的GPT)也只能滿(mǎn)足一部分需求,推出搜索引擎勢(shì)在必行。目前,業(yè)內(nèi)最為關(guān)注的是OpenAI的搜索引擎將會(huì)是一個(gè)什么樣的形態(tài),以及它是否真能撼動(dòng)Google一家獨(dú)大固化已久的搜索市場(chǎng)生態(tài)。
在OpenAI之前,美國(guó)已經(jīng)有一款生成式搜索引擎Perplexity。成立于2022年的Perplexity是一家位于美國(guó)硅谷的創(chuàng)業(yè)公司,該公司專(zhuān)注于利用人工智能技術(shù)開(kāi)發(fā)生成式搜索引擎,為搜索查詢(xún)提供直接答案,而不是提供網(wǎng)站鏈接列表。PerplexityAI會(huì)在提供的答案中整合視頻、圖像等,有時(shí)還會(huì)直接提供鏈接資源。Perplexity受到包括英偉達(dá)CEO黃仁勛等人的喜歡,成立一年半MAU達(dá)到1000萬(wàn)。
那么,OpenAI的搜索引擎會(huì)與PerplexityAI類(lèi)似,還是會(huì)帶來(lái)更多驚喜?我們還需要等待OpenAI的最終揭曉。
GPT-4o不僅是完全免費(fèi)的,而且覆蓋了桌面與移動(dòng)App,性能大幅提升,可以綜合處理文本、圖片和音頻,人機(jī)交互更加自然簡(jiǎn)單。例如,可以讓GPT-4o加入網(wǎng)絡(luò)會(huì)議,為用戶(hù)記錄發(fā)言總結(jié)概要。
GPT-4o具體有什么用?用戶(hù)可以讓GPT-4o處理眼前的問(wèn)題,極大提升生產(chǎn)力,可以與AI實(shí)時(shí)語(yǔ)音對(duì)話,就像是與真人聊天一樣自然流暢。AI處理反應(yīng)已經(jīng)達(dá)到人類(lèi)的速度,甚至還可以理解用戶(hù)的情緒,以相應(yīng)的情感作出回應(yīng)。
搶微軟的風(fēng)頭
面對(duì)OpenAI的故意撞車(chē)和搶占風(fēng)頭,谷歌在今天的I/O大會(huì)上又拿出了怎樣的AI產(chǎn)品,是否帶來(lái)了足夠的震撼與新意?
谷歌I/O開(kāi)發(fā)者大會(huì)今年已經(jīng)進(jìn)入了第16個(gè)年頭,AI早已成為I/O大會(huì)的絕對(duì)乃至唯一的主角。谷歌CEO皮查伊更是在結(jié)束時(shí)宣布,整場(chǎng)發(fā)布會(huì)一共說(shuō)了121次AI,引發(fā)了全場(chǎng)大笑。雖然整場(chǎng)發(fā)布會(huì)都沒(méi)有提及競(jìng)爭(zhēng)對(duì)手,但谷歌CEO皮查伊從主題演講一開(kāi)始就開(kāi)始秀谷歌的AI實(shí)力,宣布谷歌已經(jīng)全面進(jìn)入Gemini時(shí)代。他強(qiáng)調(diào)谷歌已經(jīng)在AI領(lǐng)域投入了十多年時(shí)間,貫穿了AI的每一層:研究、產(chǎn)品、基礎(chǔ)設(shè)施。
雖然AI新貴OpenAI在產(chǎn)品發(fā)布方面搶占了先發(fā)優(yōu)勢(shì),但谷歌在研究論文、用戶(hù)規(guī)模、產(chǎn)品數(shù)量以及算力方面都占據(jù)著壓倒性?xún)?yōu)勢(shì),這也是OpenAI必須與微軟結(jié)盟的直接原因,因?yàn)閮杉夜径疾豢赡軉为?dú)與谷歌抗衡。
皮查伊還宣布,Gemini大模型已經(jīng)覆蓋了谷歌全平臺(tái)的20億用戶(hù)產(chǎn)品,僅僅三個(gè)月時(shí)間就有100多萬(wàn)用戶(hù)注冊(cè)使用。而兩個(gè)月前發(fā)布的原生多模型Gemini 1.5 Pro已經(jīng)得到超過(guò)150萬(wàn)開(kāi)發(fā)者的使用。
在性能方面,谷歌就是AI業(yè)界的滅霸。Gemini 1.5 Pro此前直接將Token(上下文處理)性能提升到了百萬(wàn)級(jí)別,全面壓倒了受困于性能變慢的GPT-4.0 Turbo。三個(gè)月后,谷歌在今天宣布改進(jìn)版的Gemini 1.5 Pro全面開(kāi)放給Gemini Advanced的用戶(hù),并且支持35種語(yǔ)言。
更為殘暴的是,谷歌還將Gemini 1.5 Pro的上下文窗口處理性能直接翻倍到了200萬(wàn)(暫時(shí)只面向開(kāi)發(fā)者提供),在這方面OpenAI只能望塵莫及。皮查伊宣布,這是朝著無(wú)限上下文的最終目標(biāo)邁出的重要一步。
Gemini 1.5 Pro可以給用戶(hù)帶來(lái)怎樣的實(shí)際體驗(yàn)?谷歌用Workspace辦公組件展示了AI給生產(chǎn)力帶來(lái)的巨大變化。舉例來(lái)說(shuō),如果是通過(guò)Google Meets進(jìn)行遠(yuǎn)程會(huì)議,哪怕用戶(hù)無(wú)法參會(huì),也可以讓Gemini為自己錄音并列出會(huì)議紀(jì)要。
有了Gemini,Gmail郵箱就有了靈魂。代寫(xiě)郵件已經(jīng)是基本操作了。用戶(hù)可以讓Gemini幫助自己整理和總結(jié)Gmail的海量郵件,根據(jù)最近的收據(jù)和信用卡賬單郵件整理歸納出用戶(hù)的消費(fèi)支出,給出一份專(zhuān)業(yè)又具體的財(cái)務(wù)支出清單。
給AI裝上眼睛嘴巴
周鴻祎指出,據(jù)OpenAI發(fā)布會(huì)上簡(jiǎn)短的技術(shù)原理介紹,區(qū)別于傳統(tǒng)將把語(yǔ)音先翻譯成文字處理后再翻譯成語(yǔ)音的做法,這次的技術(shù)是直接把語(yǔ)音進(jìn)行了處理,形成了一個(gè)整合的大模型引擎,實(shí)現(xiàn)對(duì)語(yǔ)音輸入的直接理解——包括把語(yǔ)音中飽含的情緒、感情、語(yǔ)調(diào)、口音這些細(xì)節(jié)都進(jìn)行了理解,同時(shí)是直接輸出語(yǔ)音。
“這就帶來(lái)了一個(gè)全新的體驗(yàn),就是時(shí)延大概只有300毫秒左右,達(dá)到了人類(lèi)和人類(lèi)談話的響應(yīng)速度,這樣不僅能聽(tīng)得懂你話里的情緒,在輸出回答的時(shí)候也可以伴隨著高興、悲傷、失望、興奮或者是更復(fù)雜的感情。”周鴻祎表示。
周鴻祎還指出,除了語(yǔ)音處理層面帶來(lái)的驚艷之外,有一個(gè)容易被忽視的地方是,實(shí)際上GPT-4o的還可以直接打開(kāi)手機(jī)攝像頭,直接通過(guò)手機(jī)攝像頭賦予它更強(qiáng)大的眼著的能力。這個(gè)可能還比不上Sora,但是它比GPT-4.5的版本可以輸入圖片輸入表格的能力又提升了一步。“所以總結(jié)來(lái)講就是,GPT-4.0相當(dāng)于給人工智能賦予了對(duì)知識(shí)理解的能力,相當(dāng)于有了一個(gè)大腦,然后GPT-4.5相當(dāng)于給了一些初級(jí)的看見(jiàn)的能力,而GPT-4o實(shí)際上是給它增加了真正能看懂這個(gè)世界的眼睛,和能聽(tīng)明白人說(shuō)話的耳朵,而且嘴巴還能夠自由自在地表達(dá)自己情緒和情感的能力。”。
在周鴻祎看來(lái),有些人會(huì)對(duì)此次發(fā)布OpeanAI沒(méi)有推出GPT-5.0覺(jué)得比較失望,但是通向通用人工智能不僅是要在超級(jí)的推理能力、知識(shí)能力、邏輯能力上要趕超人類(lèi),更重要的能力還包括跟人交互的能力。所以,當(dāng)AI能通過(guò)無(wú)論是手機(jī)攝像頭還是無(wú)處不在的物聯(lián)網(wǎng)攝像頭更看明白這個(gè)世界,而且能以跟人一樣的響應(yīng)速度進(jìn)行交互的時(shí)候,這件事就變得非常可怕了,“也就是它就讓人工智能真正的更像人了”。
總結(jié)來(lái)說(shuō),人工智能技術(shù)的發(fā)展日新月異,每一次技術(shù)的突破都為我們帶來(lái)了新的驚喜。OpenAI發(fā)布的全新AI模型GPT-4o以及谷歌在I/O大會(huì)上展示的Gemini 1.5 Pro都是人工智能領(lǐng)域的重要突破。這些技術(shù)的問(wèn)世,無(wú)疑將為人工智能領(lǐng)域帶來(lái)新的發(fā)展機(jī)遇,也將為我們的生活帶來(lái)更多便利。然而,我們也應(yīng)看到,人工智能技術(shù)的發(fā)展還面臨著許多挑戰(zhàn),如如何保證人工智能的安全性、如何避免人工智能的濫用等。這些問(wèn)題需要我們?cè)诎l(fā)展人工智能的同時(shí),不斷進(jìn)行思考和探索。