報道：Google(GOOGL.US)將開發可控制計算機的人工智慧

2024-10-27 18:41

10月26日，The Information揭露，Google(GOOGL.US)正研發一款能控制計算機的AI，預計12月展示。這款名為“計算機使用代理”的產品，目的是替代用戶操作。

10月26日，據The Information報道，Google(GOOGL.US)將開發可控制計算機的人工智慧，計劃最早在12月預覽這款新的AI產品。

報道稱，這款產品也稱為“計算機使用代理”，旨在接管使用者的瀏覽器，以幫助消費者完成諸如收集研究、購買產品或預訂航班等各種日常任務。據The Information引述的三位知情人士表示，該項目的代號為“Project Jarvis”，與Anthropic本周宣布的一款產品類似。

他們還透露，12月還將發布Google下一代旗艦Gemini大型語言模型，該模型將為Jarvis提供動力。

致力於追趕OpenAI，客製化適配Chrome

不過，Jarvis的發佈時間表表明，儘管谷歌在AI技術的基礎研究面有著一定積累，但谷歌顯然還在追趕其競爭對手。目前，谷歌仍在開發具有所謂“推理能力”的AI，而OpenAI早在9月就已經推出了這項功能。

分析認為，谷歌的Gemini聊天機器人在與OpenAI的ChatGPT競爭中嚴重落後，導致企業紛紛轉向了OpenAI的大型語言模型LLMs，這也使得Google的Gemini模型難以迎頭趕上。為了提高AI開發效率，上週，谷歌將負責Gemini聊天機器人的團隊併入了其主要AI團隊DeePMInd.

值得注意的是，目前，AI開發人員已經將“代理商商(agents，即能夠完成複雜任務而無需人類監督的AI系統)”視為產業的下一階段。Salesforce、微軟和Workday等企業紛紛從OpenAI和其他公司購買了LLMs，並競相使用這項技術開發AI代理商商。

Anthropic和Google則試圖透過與個人電腦或瀏覽器直接互動的軟體，將AI代理概念推向更深的層次。OpenAI今年的大部分時間也在開發類似的軟體。

知情人士表示，谷歌的這款AI代理產品與Anthropic推出的產品類似，都是透過頻繁截取使用者電腦螢幕上的內容，並在採取點擊按鈕或輸入文字等行動前對截圖進行解釋以響應用戶的命令。

不過，兩家公司的代理產品也存在關鍵差異：

Anthropic表示其產品可以操作安裝於電腦不同應用程式上，而Jarvis目前只能操作瀏覽器，並且已經針對Google的Chrome瀏覽器進行了“客製化”調整。

知情人士也表示，至少在目前，Jarvis的目標使用者為那些希望實現網頁日常任務自動化的人。在Google今年春天的開發者大會上，執行長Sundar Pichai暗示，未來的Gemini版本可以自主執行多項操作，如幫助用戶退回一雙鞋子等。

產品反應速度慢，安全性或受質疑

知情人士也提示道，“Jarvis”的計劃是暫定的，也可能會有所變動。報道稱，谷歌可能會先向少數早期測試者發布該產品，以幫助識別和修復其不足之處。該代理目前運行速度相對較慢，因為模型需要在採取每個行動前思考幾秒鐘。

另外，由於谷歌還需要存取客戶的隱私資訊如登入密碼和信用卡資訊等，才能造訪不同的網站來完成任務或根據客戶的要求進行購買。

分析指出，谷歌需要讓人們相信，其AI代理能夠安全地處理他們的個人數據，這是它執行任務所必需的。

除此之外，LLMs還有一些普遍的漏洞，例如可能會產生錯誤答案，先前，谷歌在其搜尋引擎中使用LLM驅動的對話式答案，出現了許多明顯的錯誤。

本文轉載自“華爾街見聞”，FOREXBNB編輯：徐文強。