funsung: Google I/O '25 Keynote

Tuesday, May 27, 2025

Google I/O '25 Keynote

https://www.youtube.com/watch?v=o8NiE3XMPrM

一、AI 模型與基礎設施進展

Gemini 2.5 Pro 是 Google 目前最先進的模型，性能在多項基準測試（如 LMArena）上取得領先，特別是在語言、程式碼、長上下文處理能力方面大幅提升。
Gemini Flash 2.5 是高效率版本，擁有低延遲與成本優勢。
引入 DeepThink 模式，讓模型有更長的思考時間，提升推理與解題能力（如美國數學奧林匹亞與競賽級程式設計）。
第七代 TPU Ironwood 每個 pod 可達 42.5 exaflops，為 AI 訓練與推論提供大規模算力。

二、Gemini 應用擴展

Gemini App 現已有超過 4 億活躍用戶，新增：
- Agent Mode：可主動幫使用者搜尋房屋、預約行程等。
- Personal Context：可存取使用者 Gmail、Docs 等資料，提供個人化建議。
- Gemini Live：即時語音對話（支援 45+ 語言），可分享畫面與鏡頭。
- Gemini in Chrome：可理解瀏覽頁面內容，自動提供協助。

三、AI 助理與代理功能（Agent）

Project Astra：實現攝影機與語音互動，辨識環境並執行複雜任務。
Project Mariner：AI 可操作瀏覽器、學習使用者教學，自動重複任務。
AI 溝通協議 MCP + 開放代理標準 A2A Protocol：促進多代理合作生態。

四、即時翻譯與會議應用

Google Meet 導入即時語音翻譯（目前支援英文↔西文），同步語調與情緒，未來將支援更多語言。
Google Beam（由 Project Starline 演進）為 3D 視訊會議平台，將推出實體裝置與 HP 合作販售。

五、搜尋與 AI 模式整合

AI Overview：生成式 AI 結合傳統搜尋，每月超過 15 億人使用。
AI Mode（美國已推出）：可處理更長更複雜查詢，自動規劃搜尋策略。
- 結合個人化（如 Gmail 行程、偏好）回應。
- 支援即時視覺互動（Search Live）。
- 幫助分析數據（如體育或財報），也能主動完成任務（如訂票、預約）。
- 未來將整合購物試穿、價格追蹤、自動結帳等功能。

六、生成式多媒體創作

Imagen 4：新一代圖像生成模型，畫質、構圖、文字辨識均大幅提升。
Veo 3：影片生成模型，加入原生音效與對話功能。
Canvas 平台：可將文件轉換為網站、測驗、播客等格式，並支援多人協作創作。
Music AI Sandbox + Lyria：支援音樂人創作新曲，與專業藝術家合作開發。

七、AI 促進科學進展

AlphaFold 3：蛋白質與分子結構預測，推動藥物研發。
AlphaEvolve、AlphaProof、AMIE：在數學、醫學診斷與科研假說生成等方面展現突破。
AI 可協助像視障者透過 Astra 技術實現自主行動（合作單位如 Aira）。

No comments:

Subscribe to: Post Comments (Atom)