明略科技大模型再獲世界級(jí)突破!Mano以72B參數(shù)獲 OSWorld 榜單Specialized 模型第一
2025-11-11
明略科技(2718.HK)自研大模型 Mano 再獲世界級(jí)突破!
據(jù) OS-World E2E官方榜單最新數(shù)據(jù)(截至 2025 年10 月),明略科技自研的 GUI 智能體大模型 Mano 以 54.0% 的任務(wù)成功率刷新紀(jì)錄,位列 Specialized 模型第一、模型總榜第二,僅次于 Anthropic 最新發(fā)布的 Claude 4.5。

與今年9月首次提交的數(shù)據(jù)相比,Mano 的參數(shù)規(guī)模從 7B 擴(kuò)展至 72B(約 720 億),任務(wù)完成率從40.1% 提升到 54.0%,性能實(shí)現(xiàn)了顯著提升。這也標(biāo)志著專用智能體在真實(shí)操作任務(wù)中的執(zhí)行能力達(dá)到新高度。

OSWorld 是目前全球最具權(quán)威的“操作智能”評(píng)測(cè)體系,涵蓋 10 類應(yīng)用、369 個(gè)跨應(yīng)用任務(wù)。它要求模型在真實(shí)的桌面和瀏覽器環(huán)境中執(zhí)行連續(xù)操作——例如打開電子表格、搜索信息、整理數(shù)據(jù)、完成填報(bào)。這類任務(wù)遠(yuǎn)比問答生成復(fù)雜,因?yàn)槊恳徊蕉夹枰P图壤斫鈨?nèi)容,又理解“界面結(jié)構(gòu)”,并能在多次操作中保持邏輯連貫。
在此前的測(cè)試中,即便是頂級(jí)的通用大模型,在 OSWorld 上的成功率也常停留在 30%–40% 區(qū)間。而 Mano 72B 的最新成績(jī)——54.0% 的端到端任務(wù)成功率——不僅刷新了中國(guó)模型的最高紀(jì)錄,也讓“專用智能體”第一次在這個(gè)“AI 操作考場(chǎng)”中站上了前列。
這背后的技術(shù)路線也與傳統(tǒng)語言模型截然不同。明略科技在最新版技術(shù)報(bào)告《Mano Technical Report》(報(bào)告鏈接:https://arxiv.org/abs/2509.17336)中系統(tǒng)闡述了其方法:模型的訓(xùn)練并不是基于單純的文本對(duì)話,而是在高保真的模擬電腦環(huán)境中反復(fù)嘗試與學(xué)習(xí)。可以理解為,Mano 被放進(jìn)了一個(gè)巨大的虛擬操作系統(tǒng),在其中學(xué)習(xí)如何移動(dòng)光標(biāo)、點(diǎn)擊按鈕、識(shí)別菜單、輸入數(shù)據(jù),并通過反復(fù)試錯(cuò)掌握任務(wù)完成的最佳路徑。
Mano 的訓(xùn)練框架包含三個(gè)階段:監(jiān)督微調(diào)(SFT)、離線強(qiáng)化學(xué)習(xí)(Offline RL) 和 在線強(qiáng)化學(xué)習(xí)(Online RL)。簡(jiǎn)單來說,SFT 階段相當(dāng)于“老師教范例”,模型學(xué)習(xí)基礎(chǔ)操作方法;離線強(qiáng)化學(xué)習(xí)階段讓模型通過過去的任務(wù)經(jīng)驗(yàn)學(xué)會(huì)“舉一反三”;而在線強(qiáng)化學(xué)習(xí)階段則是在真實(shí)環(huán)境中持續(xù)練習(xí)、發(fā)現(xiàn)新策略。
明略科技還引入了一個(gè)名為 “Think–Act–Verify” 的執(zhí)行閉環(huán):模型在操作時(shí),會(huì)先判斷當(dāng)前界面狀態(tài)(Think),再執(zhí)行具體動(dòng)作(Act),最后驗(yàn)證結(jié)果是否正確(Verify)。如果執(zhí)行出錯(cuò),模型會(huì)自動(dòng)調(diào)整步驟重新嘗試。這讓 Mano 在面對(duì)復(fù)雜、多變的操作場(chǎng)景時(shí),能夠?qū)崿F(xiàn)自我修正和容錯(cuò)。
舉個(gè)通俗的例子:當(dāng)你讓智能體“下載一份財(cái)務(wù)報(bào)表”時(shí),通用大模型可能只會(huì)給出一段操作說明,而 Mano 會(huì)真的打開瀏覽器、登錄賬戶、識(shí)別下載按鈕、選擇正確的日期范圍,并在出現(xiàn)錯(cuò)誤提示時(shí)重新登錄、重試。這種能力的獲得,正是通過強(qiáng)化學(xué)習(xí)與高保真訓(xùn)練環(huán)境協(xié)同實(shí)現(xiàn)的。
根據(jù)論文數(shù)據(jù),Mano 在加入在線強(qiáng)化學(xué)習(xí)后,模型平均任務(wù)完成率提升了約 14 個(gè)百分點(diǎn),尤其在多步驟任務(wù)(multi-turn task)中表現(xiàn)穩(wěn)定。研究團(tuán)隊(duì)指出,這種“在環(huán)境中學(xué)習(xí)”的方式,是實(shí)現(xiàn)操作智能的關(guān)鍵:模型不再依賴靜態(tài)語料,而是通過持續(xù)交互獲得反饋,從而具備“學(xué)習(xí)如何行動(dòng)”的能力。
長(zhǎng)期以來,大模型的性能評(píng)估主要集中在語言理解、知識(shí)問答或內(nèi)容生成任務(wù)上。而 GUI 智能體的出現(xiàn),讓 AI 的邊界從“文字世界”延伸到了真實(shí)的操作系統(tǒng)中。與通用大模型相比,專用智能體的核心優(yōu)勢(shì)在于——它們不追求覆蓋所有知識(shí),而是致力于在特定任務(wù)上實(shí)現(xiàn)更高的執(zhí)行深度與穩(wěn)定性。
Mano 的成績(jī)正是這一趨勢(shì)的體現(xiàn)。通過結(jié)構(gòu)化的任務(wù)數(shù)據(jù)、針對(duì)性的強(qiáng)化學(xué)習(xí)和驗(yàn)證機(jī)制,模型在界面識(shí)別、動(dòng)作規(guī)劃和過程穩(wěn)定性方面表現(xiàn)出了持續(xù)進(jìn)步。OSWorld 官方評(píng)述指出,這一成果“展示了專用智能體在真實(shí)任務(wù)執(zhí)行中的潛力,也標(biāo)志著多模態(tài)智能體研究的工程化進(jìn)展。”
對(duì)明略科技而言,Mano 不僅是一項(xiàng)研究成果,也正逐步成為企業(yè)智能系統(tǒng)的底層技術(shù)。公司正在探索如何將 Mano 的操作智能嵌入到數(shù)據(jù)分析、營(yíng)銷自動(dòng)化、合規(guī)管理等具體場(chǎng)景,使模型能在實(shí)際業(yè)務(wù)流程中承擔(dān)“數(shù)字助理”的角色。研究團(tuán)隊(duì)同時(shí)提到,未來的方向包括提升推理效率、減少交互步長(zhǎng),并推動(dòng)端側(cè)輕量化部署,讓智能體在普通硬件環(huán)境中也能穩(wěn)定運(yùn)行。
從 7B 到 72B,從 40.1% 到 54.0%,Mano 的進(jìn)化歷程不僅是一次參數(shù)增長(zhǎng),更是一種能力遷移——從語言理解到操作智能的跨越。明略科技技術(shù)團(tuán)隊(duì)在報(bào)告中表示,未來 Mano 將繼續(xù)優(yōu)化推理效率與任務(wù)泛化能力,并探索端側(cè)部署與行業(yè)級(jí)落地路徑,使智能體能力真正融入企業(yè)生產(chǎn)流程。當(dāng)模型不再只“輸出答案”,而是真正“完成任務(wù)”,人工智能才開始具備通往真實(shí)世界的執(zhí)行力。
報(bào)告鏈接:https://arxiv.org/abs/2509.17336
榜單鏈接:https://os-world.github.io/
信息填寫