Tuesday, May 27, 2025

Google I/O '25 Keynote

 

https://www.youtube.com/watch?v=o8NiE3XMPrM




一、AI 模型與基礎設施進展

  • Gemini 2.5 Pro 是 Google 目前最先進的模型,性能在多項基準測試(如 LMArena)上取得領先,特別是在語言、程式碼、長上下文處理能力方面大幅提升。

  • Gemini Flash 2.5 是高效率版本,擁有低延遲與成本優勢。

  • 引入 DeepThink 模式,讓模型有更長的思考時間,提升推理與解題能力(如美國數學奧林匹亞與競賽級程式設計)。

  • 第七代 TPU Ironwood 每個 pod 可達 42.5 exaflops,為 AI 訓練與推論提供大規模算力。


二、Gemini 應用擴展

  • Gemini App 現已有超過 4 億活躍用戶,新增:

    • Agent Mode:可主動幫使用者搜尋房屋、預約行程等。

    • Personal Context:可存取使用者 Gmail、Docs 等資料,提供個人化建議。

    • Gemini Live:即時語音對話(支援 45+ 語言),可分享畫面與鏡頭。

    • Gemini in Chrome:可理解瀏覽頁面內容,自動提供協助。


三、AI 助理與代理功能(Agent)

  • Project Astra:實現攝影機與語音互動,辨識環境並執行複雜任務。

  • Project Mariner:AI 可操作瀏覽器、學習使用者教學,自動重複任務。

  • AI 溝通協議 MCP + 開放代理標準 A2A Protocol:促進多代理合作生態。


四、即時翻譯與會議應用

  • Google Meet 導入即時語音翻譯(目前支援英文↔西文),同步語調與情緒,未來將支援更多語言。

  • Google Beam(由 Project Starline 演進)為 3D 視訊會議平台,將推出實體裝置與 HP 合作販售。


五、搜尋與 AI 模式整合

  • AI Overview:生成式 AI 結合傳統搜尋,每月超過 15 億人使用。

  • AI Mode(美國已推出):可處理更長更複雜查詢,自動規劃搜尋策略。

    • 結合個人化(如 Gmail 行程、偏好)回應。

    • 支援即時視覺互動(Search Live)。

    • 幫助分析數據(如體育或財報),也能主動完成任務(如訂票、預約)。

    • 未來將整合購物試穿、價格追蹤、自動結帳等功能。


六、生成式多媒體創作

  • Imagen 4:新一代圖像生成模型,畫質、構圖、文字辨識均大幅提升。

  • Veo 3:影片生成模型,加入原生音效與對話功能。

  • Canvas 平台:可將文件轉換為網站、測驗、播客等格式,並支援多人協作創作。

  • Music AI Sandbox + Lyria:支援音樂人創作新曲,與專業藝術家合作開發。


七、AI 促進科學進展

  • AlphaFold 3:蛋白質與分子結構預測,推動藥物研發。

  • AlphaEvolve、AlphaProof、AMIE:在數學、醫學診斷與科研假說生成等方面展現突破。

  • AI 可協助像視障者透過 Astra 技術實現自主行動(合作單位如 Aira)。





No comments:

Related Posts Plugin for WordPress, Blogger...