近日,人工智能領域的領軍企業(yè)OpenAI發(fā)布了全新的AI模型GPT-4o,這一重大突破被譽為“一夜改變?nèi)藱C交互歷史”。GPT-4o不僅支持語音聊天,還能進行實時視頻交互,其絲滑程度堪比真人交互。這一技術的問世,無疑將為人工智能領域帶來新的發(fā)展機遇。

OpenAI的野心

OpenAI的旗艦產(chǎn)品ChatGPT雖然能理解自然語言并回答用戶的問題,但由于其“預訓練”的原理,無法即時搜索內(nèi)容。此外,大語言模型的生成機制也使得ChatGPT無法完全規(guī)避“一本正經(jīng)地胡說八道”的現(xiàn)象。因此,人們想要了解最新的實時內(nèi)容,仍然需要求助于搜索引擎。

傳統(tǒng)搜索引擎基于關鍵詞匹配,即根據(jù)用戶輸入的關鍵詞識別檢索范圍,并匹配可能符合用戶意圖的海量信息。然而,傳統(tǒng)搜索的痛點在于不同來源的海量信息帶來的大量冗余和信息不一致,這也導致搜出來的信息一大堆,但找不到有用的東西。

OpenAI顯然希望成為人類和數(shù)據(jù)的重要連接點,僅靠ChatGPT(哪怕是再聰明的GPT)也只能滿足一部分需求,推出搜索引擎勢在必行。目前,業(yè)內(nèi)最為關注的是OpenAI的搜索引擎將會是一個什么樣的形態(tài),以及它是否真能撼動Google一家獨大固化已久的搜索市場生態(tài)。

在OpenAI之前,美國已經(jīng)有一款生成式搜索引擎Perplexity。成立于2022年的Perplexity是一家位于美國硅谷的創(chuàng)業(yè)公司,該公司專注于利用人工智能技術開發(fā)生成式搜索引擎,為搜索查詢提供直接答案,而不是提供網(wǎng)站鏈接列表。PerplexityAI會在提供的答案中整合視頻、圖像等,有時還會直接提供鏈接資源。Perplexity受到包括英偉達CEO黃仁勛等人的喜歡,成立一年半MAU達到1000萬。

那么,OpenAI的搜索引擎會與PerplexityAI類似,還是會帶來更多驚喜?我們還需要等待OpenAI的最終揭曉。

GPT-4o不僅是完全免費的,而且覆蓋了桌面與移動App,性能大幅提升,可以綜合處理文本、圖片和音頻,人機交互更加自然簡單。例如,可以讓GPT-4o加入網(wǎng)絡會議,為用戶記錄發(fā)言總結概要。

GPT-4o具體有什么用?用戶可以讓GPT-4o處理眼前的問題,極大提升生產(chǎn)力,可以與AI實時語音對話,就像是與真人聊天一樣自然流暢。AI處理反應已經(jīng)達到人類的速度,甚至還可以理解用戶的情緒,以相應的情感作出回應。

搶微軟的風頭

面對OpenAI的故意撞車和搶占風頭,谷歌在今天的I/O大會上又拿出了怎樣的AI產(chǎn)品,是否帶來了足夠的震撼與新意?

谷歌I/O開發(fā)者大會今年已經(jīng)進入了第16個年頭,AI早已成為I/O大會的絕對乃至唯一的主角。谷歌CEO皮查伊更是在結束時宣布,整場發(fā)布會一共說了121次AI,引發(fā)了全場大笑。雖然整場發(fā)布會都沒有提及競爭對手,但谷歌CEO皮查伊從主題演講一開始就開始秀谷歌的AI實力,宣布谷歌已經(jīng)全面進入Gemini時代。他強調谷歌已經(jīng)在AI領域投入了十多年時間,貫穿了AI的每一層:研究、產(chǎn)品、基礎設施。

雖然AI新貴OpenAI在產(chǎn)品發(fā)布方面搶占了先發(fā)優(yōu)勢,但谷歌在研究論文、用戶規(guī)模、產(chǎn)品數(shù)量以及算力方面都占據(jù)著壓倒性優(yōu)勢,這也是OpenAI必須與微軟結盟的直接原因,因為兩家公司都不可能單獨與谷歌抗衡。

皮查伊還宣布,Gemini大模型已經(jīng)覆蓋了谷歌全平臺的20億用戶產(chǎn)品,僅僅三個月時間就有100多萬用戶注冊使用。而兩個月前發(fā)布的原生多模型Gemini 1.5 Pro已經(jīng)得到超過150萬開發(fā)者的使用。

在性能方面,谷歌就是AI業(yè)界的滅霸。Gemini 1.5 Pro此前直接將Token(上下文處理)性能提升到了百萬級別,全面壓倒了受困于性能變慢的GPT-4.0 Turbo。三個月后,谷歌在今天宣布改進版的Gemini 1.5 Pro全面開放給Gemini Advanced的用戶,并且支持35種語言。

更為殘暴的是,谷歌還將Gemini 1.5 Pro的上下文窗口處理性能直接翻倍到了200萬(暫時只面向開發(fā)者提供),在這方面OpenAI只能望塵莫及。皮查伊宣布,這是朝著無限上下文的最終目標邁出的重要一步。

Gemini 1.5 Pro可以給用戶帶來怎樣的實際體驗?谷歌用Workspace辦公組件展示了AI給生產(chǎn)力帶來的巨大變化。舉例來說,如果是通過Google Meets進行遠程會議,哪怕用戶無法參會,也可以讓Gemini為自己錄音并列出會議紀要。

有了Gemini,Gmail郵箱就有了靈魂。代寫郵件已經(jīng)是基本操作了。用戶可以讓Gemini幫助自己整理和總結Gmail的海量郵件,根據(jù)最近的收據(jù)和信用卡賬單郵件整理歸納出用戶的消費支出,給出一份專業(yè)又具體的財務支出清單。

給AI裝上眼睛嘴巴

周鴻祎指出,據(jù)OpenAI發(fā)布會上簡短的技術原理介紹,區(qū)別于傳統(tǒng)將把語音先翻譯成文字處理后再翻譯成語音的做法,這次的技術是直接把語音進行了處理,形成了一個整合的大模型引擎,實現(xiàn)對語音輸入的直接理解——包括把語音中飽含的情緒、感情、語調、口音這些細節(jié)都進行了理解,同時是直接輸出語音。

“這就帶來了一個全新的體驗,就是時延大概只有300毫秒左右,達到了人類和人類談話的響應速度,這樣不僅能聽得懂你話里的情緒,在輸出回答的時候也可以伴隨著高興、悲傷、失望、興奮或者是更復雜的感情。”周鴻祎表示。

周鴻祎還指出,除了語音處理層面帶來的驚艷之外,有一個容易被忽視的地方是,實際上GPT-4o的還可以直接打開手機攝像頭,直接通過手機攝像頭賦予它更強大的眼著的能力。這個可能還比不上Sora,但是它比GPT-4.5的版本可以輸入圖片輸入表格的能力又提升了一步。“所以總結來講就是,GPT-4.0相當于給人工智能賦予了對知識理解的能力,相當于有了一個大腦,然后GPT-4.5相當于給了一些初級的看見的能力,而GPT-4o實際上是給它增加了真正能看懂這個世界的眼睛,和能聽明白人說話的耳朵,而且嘴巴還能夠自由自在地表達自己情緒和情感的能力。”。

在周鴻祎看來,有些人會對此次發(fā)布OpeanAI沒有推出GPT-5.0覺得比較失望,但是通向通用人工智能不僅是要在超級的推理能力、知識能力、邏輯能力上要趕超人類,更重要的能力還包括跟人交互的能力。所以,當AI能通過無論是手機攝像頭還是無處不在的物聯(lián)網(wǎng)攝像頭更看明白這個世界,而且能以跟人一樣的響應速度進行交互的時候,這件事就變得非??膳铝?,“也就是它就讓人工智能真正的更像人了”。

總結來說,人工智能技術的發(fā)展日新月異,每一次技術的突破都為我們帶來了新的驚喜。OpenAI發(fā)布的全新AI模型GPT-4o以及谷歌在I/O大會上展示的Gemini 1.5 Pro都是人工智能領域的重要突破。這些技術的問世,無疑將為人工智能領域帶來新的發(fā)展機遇,也將為我們的生活帶來更多便利。然而,我們也應看到,人工智能技術的發(fā)展還面臨著許多挑戰(zhàn),如如何保證人工智能的安全性、如何避免人工智能的濫用等。這些問題需要我們在發(fā)展人工智能的同時,不斷進行思考和探索。