根據FOREXBNB的報導,Google(GOOGL.US)在周三對外宣布了其最新“最強大”的人工智能模型套件——Gemini 2.0。此次發布的套件包含三個主要版本:2.0 Flash、2.0 Pro Experimental 和 2.0 Flash-Lite。其中,2.0 Flash 被定位為“主力模型”,適合處理大規模、高頻率的任務;2.0 Pro Experimental 旨在提高編程效率,能夠處理高達200萬tokens的輸入;而2.0 Flash-Lite 则被Google标榜为“迄今為止最具成本效益的模型”,其每百萬tokens的處理成本僅為0.75美分,遠低於2.0 Flash 的10美分。
谷歌此次的發布標誌著其在人工智能代理領域的重大戰略部署。人工智能代理能夠代表用戶自動執行複雜的多步驟任務,無需用戶進行逐步指導。谷歌在去年12月的博客文章中提到,Gemini 2.0 在多模態能力方面取得了新突破,支持文本、圖像和音頻等多種數據類型,並具備原生工具調用能力。這些特性使得該模型系列更接近“通用型數字助手”的願景。
同時,科技巨頭和初創公司在人工智能領域的競爭正在加劇。Meta(META.US)、亞馬遜(AMZN.US)、微軟(MFT.US)、OpenAI 和 Anthropic 等公司都在加快開發類似的人工智能代理系統。
例如,Anthropic 在去年10月宣布其智能體能夠像人類一樣使用計算機完成複雜任務。據悉,Anthropic 是一家由前 OpenAI 研究主管創立的人工智能初創公司,得到了亞馬遜的支持,已成為開發人工智能代理領域的重要競爭力量。
這家初創公司表示,Anthropic 的技術通過其強大的計算機使用能力,能夠解釋計算機屏幕上的內容、選擇按鈕、輸入文本、瀏覽網站,並通過任何軟件和實時互聯網執行複雜任務。
Anthropic 首席科學官賈里德·卡普蘭(Jared Kaplan)在接受采訪時表示,該工具“基本上能夠像人類一樣使用計算機”,並強調它可以完成涉及“數十甚至數百個步驟”的複雜任務。
與此同時,OpenAI 最近推出了一項名為 Operator 的功能,該功能能夠自動執行一系列複雜任務,例如計劃假期、填寫表格、預訂餐廳以及訂購雜貨。這家由微軟支持的初創公司將 Operator 描述為“一個能夠上網為您執行任務的智能代理”。
本週早些時候,OpenAI 進一步拓展了其技術邊界,推出了 Deep Research。這項新功能允許 AI 代理編寫複雜的研究報告,並分析用戶選擇的問題和主題。值得注意的是,谷歌在去年 12 月也推出了一款同名的工具——Deep Research,它被設計為一個“研究助手”,能夠探索複雜主題並代表用戶編寫報告。
谷歌計劃在2025年初推出更多人工智能功能,其首席執行官桑達爾·皮查伊 (Sundar Pichai) 在當時的戰略會議上表示:“從歷史上看,你並不一定總是第一個進入市場,但關鍵在於執行力——真正成為同類產品中最好的。我認為,這正是 2025 年對我們而言最重要的意義所在。”