最近,字節跳動的豆包手機被其他互聯網巨頭封殺一事,可謂是鬧得沸沸揚揚。

作為首款內置了 AI Agent 功能的手機,豆包手機實現了一句話幫用戶發微信、點外賣和購物比價,但是萬萬沒想到國民 App 們一個接一個地拒絕豆包手機登錄,甚至有些 App 還會將登錄的賬號臨時封禁,因為它們不希望豆包手機從 App 中獲取用戶數據,影響自己未來的商業利益。

但是老狐卻認為,這種違背用戶主觀意愿,強行封殺豆包手機的行為,實屬有些拖行業發展的后腿。
羅永浩也發微博吐槽:技術革命是誰都攔不住的,不管試圖阻攔它的是各大 App,還是各小 App。不要說是公司,即使是各大國和各小國,也一樣攔不住。

幸運的是,面對互聯網巨頭的競爭,豆包手機并非“孤身一人”,同樣作為中文 AI 大模型技術的先行者,智譜早在 2023 年就加入了 AI Agent 的 Phone Use 戰局。
2024 年,AutoGLM 項目正式啟動,專注研究 AI Agent 的 Phone Use 能力。
同年 10 月,AutoGLM 發布了全球首個能自動操作手機的 Agent,被視為第一個具備 Phone Use 能力的 AI Agent;11 月,AutoGLM 實現了人類歷史上首個由 AI 全自動發送的紅包。

今年 8 月,智譜直接上架了面向大眾的 AutoGLM 2.0 云機版,為用戶帶來了永遠在線的虛擬手機,不僅用起來更方便,而且和用戶隱私數據實現了雙向隔離,完全不用擔心隱私問題。

而在今天,智譜更是玩了個大的,直接宣布 AutoGLM 完全開源,任何人只需下載開源文件,就能夠擁有自己的 AI Agent。
不過考慮到可能有朋友對此了解得不多,所以老狐就趁著這個機會,來為大家介紹一下 AutoGLM 是什么,以及開源的意義是什么。

AutoGLM 是什么?
了解智譜開源的 AutoGLM 能夠做什么之前,我們需要先了解 AutoGLM 是什么。
AutoGLM 并非我們熟悉的 GLM、DeepSeek 等大模型,而是大模型和一系列工具的集合,如果將大模型比作大腦,胳膊和手腳比作工具,那么 AutoGLM 就可以理解為是一個人。

以往使用 AI 時,盡管 AI 會講詳細的步驟,但是最終操作手機的依然是人,而 AutoGLM 則能夠直接幫你操作手機。

所以只要用戶用自然語言描述任務,AutoGLM 就能理解用戶的意圖是什么,在沒有外界干預的情況下,就可以看懂手機屏幕的內容并模擬人操作手機,讓 AI 從原本只能調取 App 提供的 API 接口,變成真正可以學會使用手機,自動做完一堆我們不愿意自己點點點的動作。
下面老狐就用幾個真實的案例為大家介紹一下,AutoGLM 能夠幫我們做什么。
當我們上午忙于工作時,只需要對 AutoGLM 說一句:“打開美團,幫我點一個XX外賣”,AutoGLM 就可以自動打開美團,搜索外賣商家的名稱,在菜單中找到需要下單的菜品,直接完成加購、下單的操作,只需要我們此時確認付款即可。

當第二天早上有會議的時候,如果不確定自己堵車半小時還能不能趕上開會,就可以問 AutoGLM:「第二天早上需要開會,平常過去要 1 小時,假如堵車半小時,7 點出門能不能趕上」,AutoGLM 會先打開日歷查看開會的時間,然后再通過 AI 運算告訴你能不能趕上會議。

當我們需要籌備周末的旅行計劃時,我們可以告訴 AutoGLM 打開小紅書,幫我們整理某個地方的旅游攻略,它就會打開小紅書搜索此地的旅游攻略,然后告訴我們可以參考哪些旅游攻略游玩。

當然,老狐今天舉的這些例子還只是冰山一角,因為 AutoGLM 目前已經支持了 50 多款主流的中文應用,幾乎涵蓋了日常生活需要 AI Agent 操作的全部應用。

同時,AutoGLM 還支持泛化能力,這意味著 AutoGLM 也可以迅速學會操作當前不在列表中的 App,這只是時間問題。

AutoGLM 開源的意義
不得不說的是,在 AI 圈愈發盛行「貸款營銷」風氣——用還沒有做出的東西搞宣傳的當下,智譜完全算是一股清流。
因為智譜開源的 AutoGLM 不僅僅是一個能運行的 Demo,而是一整套 Phone Agent 框架和技術棧,換句話說,任何一家廠商、開發者都能夠在自己的設備上完美復現智譜官方的 AutoGLM 2.0 應用的運行效果,一點都不帶摻假的。

寫稿時,老狐就留意到已經有閑魚賣家上架了 100 元遠程幫你配置 AutoGLM 的服務,這下不得不佩服人家的執行力了...

但是如果你不想花這 100 元,那你也可以花幾分鐘時間自己配置一下,因為AutoGLM 的部署流程非常簡單,只需要按照教程的內容,逐一在終端中輸入后,就能輕松完成功能的部署。
此外,如果你的本地設備算力有限,還可以采用云端服務器部署 AI 模型,算是為社區使用 AutoGLM 掃平了一切障礙。
所以對于手機廠商來說,AutoGLM 的開源意味著他們做 AI 原生手機的技術門檻大幅降低,不必再自己訓練 Phone Use 模型,畢竟每一代模型動輒百億級的 AI 預訓練投入,是如今已然飽和、嚴重內卷的手機市場的廠商難以承受的負擔。

同時,由于 AutoGLM 是完全開源的方案,手機廠商不需要擔心被閉源 AI 方案的技術供應商卡脖子,完全可以放心、深度地融入自家產品生態,而且因為 AutoGLM 支持本地、私有化部署,功能運行產生的數據、日志都可以留在用戶手機中,滿足用戶日益提高的隱私保護需求。
對于開發者來說,AutoGLM 的開源同樣意義重大。
原本需要用戶長線完成的一系列交互操作,如今可以使用 AutoGLM 框架實現全流程的自動化操作,不需要從零造輪子,而是可以將精力聚焦在具體的業務流程編排中,安心打磨產品。

其次,作為業內最早、Phone Use 能力表現最穩定的開源方案,AutoGLM 為學術研究、工業研究提供了一塊堪稱完美、可復現的試驗田,不僅能夠在 AutoGLM 的基礎上,通過接入不同的模型、算法,測試驗證 Agent 系統設計的性能,還可能因此創造出新的人機交互范式。
所以智譜開源 AutoGLM 的舉動,實實在在地加速了 AI Agent 手機生態的發展,讓生態從封閉、重復造輪子走向開放、共創,原本只有極個別 AI 廠商具有的能力,現在進化為全行業共同擁有、共同打磨的技術底座,徹底打破技術壟斷。
老狐還認為,這不但會加速 AI Agent 手機生態的發展,讓人人都能用上易用、好用的手機 Agent,也可能會使未來全能的個人 AI Agent 可以更快地到來。

結尾
總而言之,作為一個致力于讓手機從單純的「工具」進化成處理瑣碎事務的「助理」為目標的產品,AutoGLM 確實做到了,它的的確確可以讓用戶的日常生活變得更輕松、便捷。

從行業角度來看,智譜開源 AutoGLM 的行為既是移動平臺新一輪技術革命的開始,也是推動 AI Agent 手機生態發展的關鍵推動力。
所以,老狐大膽預測:AutoGLM 將會成為 AI Agent 手機時代的一個標志性起點。


