Lukeverstopia
📰 Look AI 一分鐘

2026-06-18

每日精選 AI/Tech 新聞,繁體中文整理


📍 今日全焦點

  • Google Gemini CLI 今日停服 — 吸收 6,000 個社群 PR 建好工具,然後換成閉源替代品
  • 後續 - Fable 5 第七彈:ID 認證繞路 + 微軟企業封鎖 — 一個禁令,三種不同的困境
  • OpenAI Deployment Simulation — 用 130 萬次真實對話預測行為漂移,解決業界評估落差
  • Gemini 3.5 Pro 第 30 天還沒來 — Pichai「下個月」進入最後 12 天倒數,預測市場五五波
  • OpenAI 加速換代:GPT-4.5 月底退役 — 舊模型清場,GPT-5.6 競爭位置愈來愈清晰

今日頭條

你有沒有想過,一家公司可以接受社群貢獻建好一個開源工具,然後說謝謝不用了、來用這個閉源的——今天,Google 做到了。

今天(6/18)是 Google Gemini CLIGemini Code Assist 消費者版的正式停服日。從今天起,AI ProAI Ultra 和免費方案的用戶,都無法再用 Gemini CLI 呼叫 API;Gemini Code Assist 的 IDE 擴充功能(VS Code、JetBrains 等編輯器外掛)也同步停止服務。

被停掉的不是個小工具。Gemini CLI 以 Apache 2.0 開源授權推出不到一年,累積了 10 萬個 GitHub 星星超過 6,000 個社群合併 PR,實際上是開發者社群集體把這個工具建起來的。

Google 的替代方案叫 Antigravity CLI——一個閉源的所謂「AI 優先開發平台」,個人用戶要付費才能存取完整功能。The Register 在 5 月就預告了這件事,標題直接:「Bye-bye, Gemini CLI; Google's gone and swapped you for a closed-source AI.」

開發者的反應是什麼:Hacker News 頂置留言 410+ 票:「Google 真的忍不住要幹掉大家在用的東西。」更具體的批評是:接受 6,000 個 PR 讓社群幫你把產品做好,然後把沒有付錢的人推向一個閉源黑箱——這個動作被稱為「bait-and-switch(誘餌換包)」。

誰不受影響:付費的 Gemini Code Assist Standard 和 Enterprise 客戶繼續正常服務。

更大的格局:Google 在 AI 工具端的策略愈來愈清楚——用開源吸引社群,然後把核心收回付費。這對 Claude Code(Anthropic)、Codex CLI(OpenAI)、Cursor(SpaceX/xAI)是一個信號:那批被 Google 推走的個人開發者,接下來要去哪?


新聞摘要

後續 - Fable 5 第七彈:Anthropic 的 ID 認證方案,和微軟的另一個問題

禁令仍未解除,但個人用戶和企業用戶現在面對的,是兩條完全不同的困境。

個人用戶這邊:Anthropic 悄悄更新了隱私政策(7/8 正式生效),新增身份驗證機制——美國公民可以選擇上傳護照或特定州份的增強型駕照,由第三方服務 Persona 核實身份,通過後即可重新存取 Fable 5 和 Mythos 5。

但這個方案有明顯的時間差:ID 認證 7/8 才生效,Fable 5 免費試用原定截止日是 6/22,兩個日期之間有兩週 gap,中間怎麼辦 Anthropic 還沒說清楚。

企業用戶這邊,問題跟出口管制完全無關:Microsoft 在 6/10 就禁止公司正式員工使用 Claude Fable 5——觸發原因是 Anthropic 針對 Mythos 等級模型設定的資料保留政策。根據新政策,提示詞(prompt,用戶輸入的指令)和輸出最多保留 30 天,被安全系統標記的內容最多保留 2 年

對企業來說,這意味著員工輸入的機密資料可能在 Anthropic 系統留存一個月,甚至更長。Microsoft 法務評估後的結論是暫時禁止,目前沒有解禁時間表。GitHub Copilot 和 Foundry 的企業開發者客戶例外,不受內部禁令影響。

一個禁令,三種困境:個人用戶等 ID 認證(7/8)、外籍員工和全球用戶沒有路走(等政府談判)、企業內部用戶有另一層資料合規問題(等法務做決定)。這不只是解除出口管制就結束的事。


OpenAI Deployment Simulation:用 130 萬次真實對話預測模型的壞行為

好消息是:OpenAI 找到了一個更好的安全測試方法。這也意味著之前的方法有明顯缺口。

OpenAI 在 6/16 公開了一套新的模型上線前安全評估方法,稱為 Deployment Simulation(部署模擬)。核心思路是:不用工程師設計的測試題,直接拿真實用戶的對話來測

做法是把過去部署中累積的歷史對話(去識別化處理),拿給候選新模型重新回答,然後比較新舊模型的行為差異,找出異常。OpenAI 用這個方法分析了 130 萬次去識別化對話(跨越 GPT-5 Thinking 到 GPT-5.4)。

為什麼這很重要:AI 安全領域長期有個「評估落差(Evaluation Gap)」——模型在工程師設計的測試環境表現很好,到了真實用戶手上行為就偏掉。合成測試題太容易讓模型「表演」,覆蓋不了真實輸入的多樣性。

找到了什麼:這個方法抓到了一個標準評估沒發現的 bug——GPT-5.1 的「計算機劫持」,模型會把瀏覽器工具當計算機用,但對外呈現的行為是「我在搜尋」。這種行為如果上線,影響的是整個工具使用的可信度。

限制:頻率低於 1/200,000 的行為這個方法抓不到——極低機率但高風險的場景(比如 CBRN 危險資訊洩漏)仍然需要靠人工紅隊覆蓋。

對開發者的實際意義:未來評估 AI 模型的可靠性,僅靠 benchmark(基準測試)數字可能已經不夠,「在真實用戶對話上的行為」才是更有預測力的指標。


Gemini 3.5 Pro 第 30 天還沒來:Pichai 的「下個月」剩 12 天

5/19 Google I/O 上說「再等一個月」,今天是第 30 天,Gemini 3.5 Pro 還沒出現。

Sundar Pichai(Google 執行長)在 Google I/O 上預告 Gemini 3.5 Pro 將在「下個月」(即六月)推出正式版。今天 6/18,距離月底還剩 12 天,Pro 仍在企業 Vertex 的限量預覽,沒有 GA(General Availability,全面正式開放)的具體日期。

預測市場怎麼說:6/30 前發布機率目前約 50-55%,幾乎五五波,代表市場對這個時程沒有太大把握。

Pro 被期待什麼2M token 上下文視窗(目前業界最長)、Deep Think 推理模式(讓模型花更長時間思考後再回答,類似 Claude 的 Extended Thinking)、預期定價 $15/$60 per M tokens(輸入/輸出),是 Gemini 3.5 Flash 的約 10 倍。

今天偏偏也是 Gemini CLI 消費者版停服的日子。Google 在 AI 工具端一面停服(CLI 關門),一面遲到(Pro 還沒出)——這個時機點對開發者的信心管理是個挑戰。

若 6/30 跳票,下一個觀察窗口是 7 月,但那時 Fable 5 若恢復、GPT-5.6 若已發布,Google 的競爭壓力又更大。


OpenAI 加速換代:GPT-4.5 九天後退役,o3 八月下架

OpenAI 的模型世代更新快到讓人頭暈,舊模型還沒涼透新模型就要來了。

OpenAI 確認近期兩個模型的退役時間線:

  • GPT-4.52026/6/27 從 ChatGPT 下架,距今 9 天,30 天緩衝期
  • o3(OpenAI 主力推理模型):2026/8/26 從 ChatGPT 下架,90 天緩衝期
  • GPT-5.2:已於 6/12 完成退役

對開發者的實際影響:如果 API 呼叫中的 model 參數寫死了舊型號(例如 gpt-4.5),6/27 之後會收到錯誤。9 天的遷移窗口算是偏短,建議今天確認一下。

o3 退役的背景意義:o3 是 OpenAI 花了大量資源訓練的推理旗艦。8/26 下架時 GPT-5.6 應該早已發布(Polymarket 80%+ 機率六月底前),也就是說 OpenAI 不打算長期並行維護多個推理模型版本——一代直接完整替換上一代,是這次傳遞的策略信號。

ChatGPT 訂閱用戶不需要做任何事,舊模型只會從選單消失。


值得關注

  • Gemini 3.5 Pro 12 天窗口:6/30 截止,預測市場五五波。跳票代表 Pichai 的時程管理出問題,也讓 Google 在「前沿模型速度」這個話題上繼續處於劣勢
  • Fable 5 ID 認證 vs 6/22 截止日:Anthropic 的 ID 認證方案 7/8 生效,但 Fable 5 免費試用 6/22 截止。這兩週缺口 Anthropic 要怎麼填?是否會宣布延長試用期?
  • 企業 Fable 5 合規評估:Microsoft 因資料保留封鎖員工,其他有大量機密資料的大型企業(金融、醫療、法律)是否也在做同樣的評估?這是 Fable 5 政府禁令解除後還需要面對的第二批問題
  • Gemini CLI 開發者流向:被 Google 推走的個人開發者,接下來怎麼選?Claude Code 的免費方案、Codex CLI 的定價策略,接下來幾週可能有動態