亚洲爆乳中文字幕无码专区网站-黄页网站视频-暖暖 免费 高清 日本 在线-97亚洲熟妇自偷自拍另类图片-国产av久久久久精东av

EN

直播回顧 | 不再“紙上談兵”,大模型能力如何轉(zhuǎn)化為實(shí)際業(yè)務(wù)價(jià)值

2025-05-22

隨著技術(shù)的快速發(fā)展,大模型在各行業(yè)的應(yīng)用潛力日益凸顯,但如何將大模型能力高效轉(zhuǎn)化為實(shí)際業(yè)務(wù)價(jià)值,仍是企業(yè)面臨的核心挑戰(zhàn)。

近日 InfoQ《極客有約》X AICon 直播欄目特別邀請(qǐng)了 華為云 AI 應(yīng)用首席架構(gòu)師鄭巖 擔(dān)任主持人,和 螞蟻集團(tuán)高級(jí)技術(shù)專家楊浩、明略科技高級(jí)技術(shù)總監(jiān)吳昊宇 一起,在 AICon全球人工智能開(kāi)發(fā)與應(yīng)用大會(huì)2025 上海站 即將召開(kāi)之際,共同探討大模型如何驅(qū)動(dòng)業(yè)務(wù)提效。

部分精彩觀點(diǎn)如下:

  • 選擇模型時(shí),應(yīng)重點(diǎn)考慮推理還是生成、上下文長(zhǎng)度、響應(yīng)性能三個(gè)方向。
  • 做 AI 應(yīng)用就像做工廠,雖然做的事情看似高大上,但在實(shí)際操作中,還是要在“車間”里與客戶一起,逐步解決一個(gè)又一個(gè)問(wèn)題。
  • 理想中的 AI 智能體應(yīng)該類似于生命體,它具備感知、認(rèn)知和行動(dòng)能力,并能夠在實(shí)踐中不斷迭代和反饋。

在 5 月 23-24 日將于上海舉辦的 AICon 全球人工智能開(kāi)發(fā)與應(yīng)用大會(huì) 上,InfoQ 特別設(shè)置了【大模型助力業(yè)務(wù)提效實(shí)踐】專題。該專題將圍繞模型選型與優(yōu)化、應(yīng)用場(chǎng)景落地及效果評(píng)估等關(guān)鍵環(huán)節(jié),分享行業(yè)領(lǐng)先企業(yè)的實(shí)戰(zhàn)經(jīng)驗(yàn)。

屆時(shí),明略科技高級(jí)技術(shù)總監(jiān)吳昊宇將帶來(lái)《多模態(tài)大模型驅(qū)動(dòng)的生成式營(yíng)銷落地實(shí)踐》主題分享,歡迎現(xiàn)場(chǎng)參與~

查看大會(huì)日程解鎖更多精彩內(nèi)容:https://aicon.infoq.cn/2025/shanghai/schedule

以下內(nèi)容基于直播速記整理,經(jīng) InfoQ 刪減。

01 場(chǎng)景探索

鄭巖:在探索大模型應(yīng)用場(chǎng)景時(shí),企業(yè)常會(huì)遇到“看起來(lái)很美但落地難”的需求,各位在實(shí)際項(xiàng)目中是如何判斷一個(gè)場(chǎng)景是否值得投入的?

吳昊宇: 企業(yè)應(yīng)用 AI 時(shí),需要關(guān)注三個(gè)關(guān)鍵點(diǎn):首先是識(shí)別最重要且值得解決的問(wèn)題;其次是確保有高質(zhì)量的相關(guān)數(shù)據(jù)支撐 AI 應(yīng)用;第三,當(dāng)效率低或解決效果差時(shí),AI 可以作為輔助工具提升效率。

企業(yè)選擇 AI 應(yīng)用場(chǎng)景時(shí),應(yīng)遵循高頻和有價(jià)值兩個(gè)原則。通過(guò)識(shí)別最有價(jià)值和最頻繁的問(wèn)題,可以明確解決范圍并合理投入資源,確保短期內(nèi)看到效果。

楊浩: 財(cái)務(wù)領(lǐng)域 AI 應(yīng)用可以分為三大類型:一是提升基礎(chǔ)作業(yè)效率,過(guò)去在工程化階段很難通過(guò)逐行代碼寫清楚審核規(guī)則,而 AI 應(yīng)用后,審核場(chǎng)景的效果顯著提升。二是風(fēng)險(xiǎn)防控,我們會(huì)根據(jù)不同指標(biāo)建立模型,利用大模型分析并形成 SOP。三是創(chuàng)造增量?jī)r(jià)值,財(cái)務(wù)領(lǐng)域的司庫(kù)投資場(chǎng)景可以通過(guò)大模型優(yōu)化投資決策。

在落地具體場(chǎng)景時(shí),我們關(guān)注 ROI,評(píng)估項(xiàng)目需求、人員和卡的投入,最終判斷效果是否能覆蓋投資成本。

鄭巖:ROI 如果僅僅考慮人力和卡的成本,實(shí)際上投入非常大,這樣是否會(huì)限制我們的場(chǎng)景選擇呢?

楊浩: 確實(shí)會(huì)有影響。舉個(gè)例子,如果我們投入兩個(gè)人和兩張 L20 推理卡,能夠節(jié)省五個(gè)財(cái)務(wù)人員的工作量,那么我們認(rèn)為投入產(chǎn)出是正向的。

雖然 AI 應(yīng)用還不完全成熟,初期技術(shù)成本往往高于傳統(tǒng)技術(shù),但在財(cái)務(wù)領(lǐng)域,我們會(huì)根據(jù)三個(gè)分類優(yōu)先評(píng)估那些高優(yōu)先級(jí)的場(chǎng)景。

鄭巖:AI 大模型帶來(lái)的價(jià)值和長(zhǎng)期發(fā)展趨勢(shì)確實(shí)讓我們無(wú)法忽視,但如果我們?nèi)嫱度耄瑖L試用 AI 大模型重做所有場(chǎng)景,成本又會(huì)非常高。因此,關(guān)鍵在于找到一個(gè)平衡點(diǎn)。

我們內(nèi)部有總結(jié)一個(gè) AI 場(chǎng)景識(shí)別的 checklist,稱之為“AI 場(chǎng)景 12 問(wèn)”,簡(jiǎn)單說(shuō),就是通常會(huì)從三個(gè)維度來(lái)考量:第一個(gè)維度是業(yè)務(wù)價(jià)值,也就是商業(yè)價(jià)值。我們雖然不會(huì)精準(zhǔn)的衡量 ROI 來(lái)看這場(chǎng)要不要做,但是這會(huì)是一個(gè)重要的排序因素。接下來(lái)是成熟度,正如吳老師提到的業(yè)務(wù)、數(shù)據(jù)和技術(shù)的準(zhǔn)備情況。

最后,我們還加入了一個(gè)維度:是否有持續(xù)運(yùn)營(yíng)的能力。因?yàn)槲覀兺ǔUJ(rèn)為 AI 應(yīng)用上線后,很多時(shí)候無(wú)法達(dá)到普通員工的作業(yè)效果,還需要持續(xù)投入精力去優(yōu)化和迭代。

吳昊宇: 以前在營(yíng)銷工作中,我們需要大量的數(shù)據(jù)支持,主要是寫報(bào)告和查數(shù)據(jù)。過(guò)去,我們常用小模型,雖然成本低,但靈活性差。換個(gè)新行業(yè)看數(shù)據(jù)時(shí),發(fā)現(xiàn)之前用的實(shí)體無(wú)法適應(yīng)新需求,這時(shí)我們通常會(huì)依靠人力投入,進(jìn)行大量人工標(biāo)注。

然而,使用大模型后,情況就變得簡(jiǎn)單了。業(yè)務(wù)人員只需要定義新領(lǐng)域的實(shí)體詞,大模型就能自動(dòng)識(shí)別。這樣,社交媒體洞察報(bào)告可以根據(jù)行業(yè)定制,客戶需求越細(xì)致,報(bào)告就越詳細(xì)。報(bào)告的速度和質(zhì)量也得到了顯著提升。

鄭巖:在立項(xiàng)初期,如何向決策層證明大模型投入的性價(jià)比?各位有哪些量化的“價(jià)值錨點(diǎn)”可以分享?

楊浩: 在財(cái)務(wù)領(lǐng)域,很多問(wèn)題都可以通過(guò) ROI 來(lái)衡量。對(duì)于效率提升的場(chǎng)景,我們會(huì)根據(jù)單量來(lái)衡量。例如,若通過(guò)輔助工具或無(wú)人值守模式提升了效率,我們會(huì)計(jì)算這種模式能節(jié)省多少人工工時(shí)。

財(cái)務(wù)高層最關(guān)心的往往是風(fēng)險(xiǎn)控制,而非純粹的效率提升。在這種情況下,我們首先衡量場(chǎng)景的風(fēng)險(xiǎn)敞口,并評(píng)估引入大模型后能夠覆蓋的風(fēng)險(xiǎn)防控比例。

對(duì)于增量?jī)r(jià)值的創(chuàng)造部分,比如智能資金調(diào)撥、結(jié)構(gòu)性存款和量化投資等,這些可以直接為公司帶來(lái)實(shí)際的資金增值,能夠明確計(jì)算出為公司賺了多少錢。

此外,像稅務(wù)規(guī)劃等場(chǎng)景,也能通過(guò)大模型收集數(shù)據(jù),支持相關(guān)決策。這些場(chǎng)景的收益可以明確衡量,無(wú)論是減少風(fēng)險(xiǎn)敞口還是提升人效,投入的成本都能得到初步估算。如果 ROI 不為負(fù),通常老板會(huì)愿意進(jìn)行投資。

鄭巖: 風(fēng)險(xiǎn)是怎么估算的?

楊浩: 通常通過(guò)掃描風(fēng)險(xiǎn)敞口,來(lái)確定能夠管控的風(fēng)險(xiǎn)比例。比如審核流程中,財(cái)務(wù)有時(shí)會(huì)盲目審核一些采購(gòu)單或報(bào)賬單,這些單據(jù)可能存在巨大的風(fēng)險(xiǎn)敞口,特別是單筆金額上億的情況下。使用大模型審核時(shí),我們會(huì)逐個(gè)審核這些環(huán)節(jié),并通過(guò)模型管控相應(yīng)的風(fēng)險(xiǎn)比例。

鄭巖: 最終還是需要人工核查吧?

楊浩: 當(dāng)大模型的準(zhǔn)確率足夠高并且穩(wěn)定時(shí),某些場(chǎng)景我們已經(jīng)能夠?qū)崿F(xiàn)無(wú)人值守。

吳昊宇: 在我們做營(yíng)銷時(shí),很多時(shí)候并不是單純關(guān)注錢的問(wèn)題。我們對(duì)接了許多跨國(guó)公司,在這些公司里,中國(guó)區(qū)更加注重創(chuàng)新,如果實(shí)現(xiàn)了一個(gè)好的 AI 應(yīng)用,它可能成為總部認(rèn)可的機(jī)會(huì),從而在總部獲得更大的支持。

我們與一家醫(yī)藥客戶合作,幫助他們的內(nèi)部咨詢部門關(guān)注一線人員的滿意度。這個(gè)醫(yī)藥公司有大量的業(yè)務(wù)代表需要與醫(yī)生接觸,但因?yàn)獒t(yī)學(xué)專業(yè)性強(qiáng),一線代表往往不敢直接提問(wèn),特別是擔(dān)心問(wèn)得多了會(huì)被視為不專業(yè)。

因此,我們幫助他們創(chuàng)建了一個(gè)基于知識(shí)庫(kù)的應(yīng)用,除了查詢功能外,還包括內(nèi)部培訓(xùn)和考試。經(jīng)過(guò)這一套培訓(xùn)和練習(xí)后,他們的一線代表開(kāi)始變得更加自信,敢于與醫(yī)生溝通,見(jiàn)面的頻率也有所增加,這對(duì)他們的銷售工作幫助巨大。

02 技術(shù)落地

鄭巖:在選擇大模型技術(shù)路線時(shí),不同業(yè)務(wù)場(chǎng)景對(duì)模型能力的側(cè)重點(diǎn)可能完全不同,能否結(jié)合各位的實(shí)踐,分享一下技術(shù)選型時(shí)的優(yōu)先級(jí)考量?在改造傳統(tǒng)系統(tǒng)時(shí),各位是選擇“顛覆重構(gòu)”還是“漸進(jìn)升級(jí)”?

楊浩: 不同版本的模型適用于不同的需求。選擇模型時(shí),我們主要考慮三個(gè)因素:首先,場(chǎng)景的重點(diǎn)是側(cè)重推理還是生成;其次,上下文的長(zhǎng)度,一些場(chǎng)景需要處理長(zhǎng)上下文,而其他場(chǎng)景可能只需要短上下文;最后,響應(yīng)性能。在某些場(chǎng)景中,高性能響應(yīng)是必須的,特別是深度思考的模型常常響應(yīng)遲緩,可能需要幾秒到幾分鐘才開(kāi)始返回結(jié)果,這在某些應(yīng)用中是不可接受的。

另外,關(guān)于選擇顛覆重構(gòu)還是漸進(jìn)升級(jí),也需根據(jù)具體場(chǎng)景分析。AI 應(yīng)用有三種范式:AI Embedding、AI Copilot 和 AI Agent。其中,前兩者偏向漸進(jìn)升級(jí),AI Agent 則偏向顛覆重構(gòu)。

尤其是在財(cái)務(wù)領(lǐng)域,第三種模式(AI Agent)占據(jù)了大部分比重,可能超過(guò) 50%。從 2023 年下半年開(kāi)始,我們先進(jìn)行了一些 AI 嵌入的工作,將 AI 能力融入現(xiàn)有財(cái)務(wù)體系中。

用戶并未感知到這是 AI 應(yīng)用,只是看到了自動(dòng)化的流程。比如在界面的右下角彈出一個(gè)機(jī)器人,用戶可以與其交互進(jìn)行智能分析、審核等任務(wù)。對(duì)于 AI Agent,我們正在定義數(shù)字員工,實(shí)際上是在重新構(gòu)建整個(gè)財(cái)務(wù)系統(tǒng)的入口,這屬于顛覆重構(gòu)的方式。

鄭巖:?財(cái)務(wù)體系相對(duì)其他業(yè)務(wù)領(lǐng)域,數(shù)字化成熟度是比較高的。如何在如此成熟的數(shù)字化體系中,深度采用 AI 且以超過(guò) 50% 的比例進(jìn)行重構(gòu),如何確保業(yè)務(wù)能夠適應(yīng)這些變化?

楊浩: 財(cái)務(wù)領(lǐng)域確實(shí)有很多子領(lǐng)域,每個(gè)子領(lǐng)域基本上都有后臺(tái)管理系統(tǒng)。在新的 AI Agent 模式下,我們?cè)O(shè)計(jì)了一個(gè) AI Native 的財(cái)務(wù)體系,提供統(tǒng)一的入口,后端連接各個(gè)子系統(tǒng),并且這些不同領(lǐng)域的 Agent 通過(guò)協(xié)議進(jìn)行通信。

從業(yè)務(wù)角度來(lái)看,用戶不再關(guān)注各個(gè)系統(tǒng)的功能,而是關(guān)注自己的業(yè)務(wù)需求。我們內(nèi)部提出的口號(hào)是“從做功能到做服務(wù)”,舉例來(lái)說(shuō),報(bào)銷和報(bào)賬是每個(gè)公司都會(huì)涉及的內(nèi)容。

傳統(tǒng)的系統(tǒng)需要用戶手動(dòng)處理提單、審核結(jié)算等復(fù)雜流程,而現(xiàn)在我們的系統(tǒng)只需要用戶簡(jiǎn)潔地輸入一句話,比如“我要報(bào)一個(gè)賬”,并上傳發(fā)票,后續(xù)的提單和審核等流程系統(tǒng)會(huì)自動(dòng)完成,這是對(duì)用戶體驗(yàn)的一次重要變革。

吳昊宇:對(duì)于營(yíng)銷類客戶,他們更加關(guān)注模型是否能夠從多樣化的材料中挖掘出相關(guān)信息。例如,若客戶查詢草莓相關(guān)內(nèi)容,但歷史報(bào)告只包含藍(lán)莓?dāng)?shù)據(jù),嚴(yán)格排除藍(lán)莓內(nèi)容可能導(dǎo)致無(wú)法提供有用信息。因此,模型需要具備一定的靈活性。

而對(duì)于醫(yī)療客戶,他們對(duì)準(zhǔn)確性、引用的精確性以及可解釋性要求非常高。在這種情況下,模型必須嚴(yán)格按照原文回答,不能自行生成或引用其他知識(shí)。

在推理模型的應(yīng)用中,處理報(bào)告和問(wèn)答時(shí),我們首先進(jìn)行發(fā)散性推理,探索用戶可能的需求和相關(guān)問(wèn)題,但在回答時(shí),必須確保模型的高準(zhǔn)確性,避免過(guò)多的推理。這些差異決定了模型選擇時(shí)需要根據(jù)客戶需求進(jìn)行權(quán)衡。

在傳統(tǒng)系統(tǒng)的改造過(guò)程中,我們逐步升級(jí)。例如,在頁(yè)面上添加類似 Copilot 的插件,用戶可以通過(guò)該插件直接進(jìn)行問(wèn)答或操作。同時(shí),我們將一些傳統(tǒng)的判斷邏輯轉(zhuǎn)交給大模型處理,特別是在涉及關(guān)鍵節(jié)點(diǎn)的場(chǎng)景。

過(guò)去,這些節(jié)點(diǎn)依賴代碼規(guī)則或小模型判斷,而現(xiàn)在,大模型可以更好地利用工作流上下文,從而提供更準(zhǔn)確的結(jié)論。雖然界面變化不大,但系統(tǒng)架構(gòu)已發(fā)生顯著變化。

鄭巖:?我們?cè)趯?shí)際選型和采用各種模型時(shí),還會(huì)考慮到一個(gè)問(wèn)題:我們不希望模型的種類過(guò)于發(fā)散。技術(shù)團(tuán)隊(duì)若要熟悉多種不同模型的能力、風(fēng)格、架構(gòu)和部署方法,成本會(huì)相當(dāng)高。

因此,在進(jìn)行 POC(概念驗(yàn)證)或原型驗(yàn)證時(shí),我們可以適度發(fā)散,但在生產(chǎn)環(huán)境中,我們更傾向于收斂。

鄭巖:從 OpenAI 提供 Agent 架構(gòu)之后,大家都在 Agent 都有創(chuàng)新,在大家各自的領(lǐng)域,Agent 架構(gòu)有哪些創(chuàng)新?或者實(shí)踐?

楊浩: 我們自己定義了一套 Agent 體系,并將其分為四個(gè)主要部分:感知、決策、執(zhí)行和反饋。

感知分為主動(dòng)感知和被動(dòng)感知。被動(dòng)感知比較簡(jiǎn)單,就是用戶通過(guò)對(duì)話給我們的信息。主動(dòng)感知?jiǎng)t是我們?cè)谄髽I(yè)內(nèi)部應(yīng)用中,通過(guò)感知用戶的角色、崗位、權(quán)限和任務(wù)等,來(lái)為用戶打標(biāo)簽并進(jìn)行畫像。

系統(tǒng)會(huì)根據(jù)這些信息推薦相關(guān)的任務(wù)和操作。決策部分涉及到存儲(chǔ)和各種決策模型,決策模型幫助 Agent 決定要做什么以及如何做。執(zhí)行部分則涉及各種工具的調(diào)用,比如 API、SQL 等,Agent 通過(guò)調(diào)度這些工具來(lái)完成任務(wù)。

我們?cè)诜答佹溌贩矫孢M(jìn)行了創(chuàng)新。例如,用戶遇到問(wèn)題并認(rèn)為大模型的回答有誤,但如果不做調(diào)整,下次用戶再問(wèn)相同問(wèn)題時(shí),大模型可能仍無(wú)法給出正確答案。

為了解決這一問(wèn)題,我們構(gòu)建了一個(gè)反饋鏈路,讓用戶可以格式化地反饋問(wèn)題,指出模型在某些場(chǎng)景中的不足之處。

我們將這些反饋信息整理成學(xué)習(xí)知識(shí)庫(kù),并通過(guò)動(dòng)態(tài)調(diào)整來(lái)優(yōu)化模型性能。通過(guò)這一動(dòng)態(tài)反饋機(jī)制,Agent 能夠不斷學(xué)習(xí),逐步提升模型的能力。

鄭巖: 可以舉一些動(dòng)態(tài)反饋的例子嗎?

楊浩: 在智能審核場(chǎng)景中,我們關(guān)注每個(gè)審核點(diǎn),如核對(duì)稅率是否與合同一致。若從合同提取的稅率錯(cuò)誤,用戶可結(jié)構(gòu)化反饋,系統(tǒng)自動(dòng)生成反饋內(nèi)容。

收到反饋后,我們會(huì)人工確認(rèn)其質(zhì)量,確保數(shù)據(jù)準(zhǔn)確無(wú)誤,再將其加入知識(shí)庫(kù)并定期更新。更新后的模型用于評(píng)測(cè)歷史數(shù)據(jù),若準(zhǔn)確率提升,經(jīng)過(guò)灰度測(cè)試后正式投入使用。最終,模型能像人一樣理解并響應(yīng)反饋,達(dá)到智能優(yōu)化的效果。

鄭巖: 不僅讓大模型能“聽(tīng)懂人話”,還能讓用戶參與到大模型的持續(xù)演進(jìn)過(guò)程中,形成一個(gè)非常有價(jià)值的循環(huán)。

楊浩: 關(guān)鍵在于讓業(yè)務(wù)方真正成為大模型應(yīng)用的“老師”。

鄭巖: 這真的就變成了“AI 訓(xùn)練師”——用戶在不斷地幫助 AI 進(jìn)行訓(xùn)練。

吳昊宇: 在我們的內(nèi)容營(yíng)銷系統(tǒng)中,我們傾向于將整個(gè)系統(tǒng)看作一個(gè) AI Agent,最終目標(biāo)是實(shí)現(xiàn)內(nèi)容生產(chǎn)的全自動(dòng)化。我們將內(nèi)容營(yíng)銷 Agent 分為三個(gè)部分:感知、認(rèn)知和行動(dòng)。

感知系統(tǒng)方面,我們需要了解市場(chǎng)上發(fā)生了什么,避免盲目做內(nèi)容。在做營(yíng)銷之前要“五看”:看趨勢(shì)、看行業(yè)、看目標(biāo)人群、看競(jìng)品和本品。這些信息都依賴于我們的“魔方 Pro”系統(tǒng)來(lái)收集,它能從市場(chǎng)中提取相關(guān)信息,作為內(nèi)容創(chuàng)作的基礎(chǔ),決定創(chuàng)作方向。

認(rèn)知系統(tǒng)方面,我們基于明敬超圖多模態(tài)大模型創(chuàng)造了一個(gè)通過(guò)模擬人的主觀感受來(lái)評(píng)估內(nèi)容的系統(tǒng)。這個(gè)系統(tǒng)能夠從不同年齡層或性別的人群角度出發(fā),通過(guò)模型模擬他們的反應(yīng)。通過(guò)這種方式,我們可以提前預(yù)判廣告的受眾反應(yīng),避免不必要的內(nèi)容測(cè)試,減少成本,提高 ROI。

行動(dòng)系統(tǒng)則關(guān)注廣告內(nèi)容的自動(dòng)化生產(chǎn),以及如何與人工合作進(jìn)行內(nèi)容創(chuàng)作。廣告投放后,需要通過(guò)收集數(shù)據(jù)進(jìn)行迭代反饋,確保廣告的 ROI 持續(xù)提升。如果某個(gè)廣告效果好,我們可以加大投入,進(jìn)行加熱推送,讓其表現(xiàn)更佳。

整體來(lái)說(shuō),我們的反饋和行動(dòng)系統(tǒng)核心在于內(nèi)容的迭代和反饋,通過(guò)這個(gè)過(guò)程使?fàn)I銷活動(dòng)實(shí)現(xiàn)自動(dòng)化。我們的最終目標(biāo)是將整個(gè)營(yíng)銷過(guò)程——從感知、認(rèn)知到行動(dòng)——整合為一個(gè)連貫的系統(tǒng)。在不需要太多人力干預(yù)的情況下,廣告商能把內(nèi)容交給 AI Agent,放心地期待回報(bào)。

鄭巖:MCP 非常火熱,不同的技術(shù)棧應(yīng)用如何快速支持,以及是否決定支持?

吳昊宇:MCP 在開(kāi)發(fā)全新 AI 應(yīng)用時(shí)非常有用,但對(duì)于一些相對(duì)成熟、流程固定的產(chǎn)品,MCP 的優(yōu)勢(shì)不如傳統(tǒng)技術(shù)明顯,甚至在某些情況下還不夠成熟。

所以,對(duì)于舊產(chǎn)品,我們根據(jù)現(xiàn)有情況進(jìn)行測(cè)試和選擇;而對(duì)于新產(chǎn)品,我們更多地進(jìn)行適配。之前,我們調(diào)用內(nèi)部工具時(shí)通常使用函數(shù)調(diào)用的方式,將所有內(nèi)容寫成一個(gè)非常長(zhǎng)的 prompt,交給大模型來(lái)調(diào)度。現(xiàn)在,我們搭建了 MCP Server,各團(tuán)隊(duì)接入時(shí)操作變得更加簡(jiǎn)便。

盡管如此,在新的 AI 應(yīng)用中,我們也發(fā)現(xiàn) MCP 的變動(dòng)非常大。因此,目前我們還是在有限制地使用 MCP,并且希望 MCP 協(xié)議能夠盡快成熟,以便我們可以更加放心地使用它。

楊浩: 螞蟻內(nèi)部 MCP 的應(yīng)用比較激進(jìn)。舉個(gè)例子,像支付寶的支付 API,現(xiàn)在可以通過(guò) MCP 的方式結(jié)合,直接在 Agent 中完成支付操作,這在支付領(lǐng)域的應(yīng)用非常前衛(wèi)。我們?cè)?AI 應(yīng)用進(jìn)程中,作為客戶端去調(diào)用螞蟻內(nèi)部的各種服務(wù),這部分使用較多。

另外,針對(duì)一些財(cái)務(wù)領(lǐng)域的老舊系統(tǒng),很多是基于 Java 架構(gòu)的,我們?cè)谶@些小眾場(chǎng)景中嘗試將 MCP 應(yīng)用進(jìn)行試點(diǎn)。為了支持 MCP,我們會(huì)在一些小眾場(chǎng)景中,通過(guò) Server list 等模塊來(lái)支持 MCP 的應(yīng)用。所以,作為消費(fèi)者,我們更多的是調(diào)用螞蟻內(nèi)部的 MCP 服務(wù)器。

前兩年大家專注于模型的研發(fā)和提升,而最近,MCP 開(kāi)始引起關(guān)注。可以看出,大家已經(jīng)從單純的卷模型轉(zhuǎn)向卷應(yīng)用。MCP 作為一個(gè)標(biāo)準(zhǔn)化的通信協(xié)議,解決了通信協(xié)議這一層的工程化問(wèn)題,它不是模型層的創(chuàng)新。

鄭巖:從實(shí)驗(yàn)室效果到生產(chǎn)環(huán)境穩(wěn)定表現(xiàn),各位是如何實(shí)現(xiàn)的?能否揭秘關(guān)鍵評(píng)測(cè)環(huán)節(jié)的設(shè)計(jì)思考?

吳昊宇:POC 階段大家認(rèn)為一切順利,但只有真正進(jìn)入生產(chǎn)并面向客戶時(shí),才發(fā)現(xiàn)實(shí)際上工作才剛剛開(kāi)始。面對(duì)不確定性系統(tǒng),最重要的就是多測(cè)試。測(cè)試不僅是覆蓋多個(gè)場(chǎng)景、領(lǐng)域和行業(yè),還要反復(fù)進(jìn)行,而不是一次性測(cè)試完就結(jié)束。

舉個(gè)例子,在與客戶一起上線知識(shí)庫(kù)系統(tǒng)時(shí),需要不斷測(cè)試其材料,客戶提了意見(jiàn)后,我們要去驗(yàn)證解決方案。有時(shí)甚至需要人工與客戶一起整理資料,因?yàn)榭蛻籼峁┑馁Y料質(zhì)量可能很差,我們需要與客戶合作,提升資料質(zhì)量,從而提高最終的問(wèn)答質(zhì)量。

當(dāng)然,客戶會(huì)有基本的預(yù)期,期望在經(jīng)過(guò)一定的測(cè)試和優(yōu)化后,達(dá)到預(yù)定效果。你不可能一直修改下去,因此要設(shè)定好標(biāo)準(zhǔn),并與客戶不斷磨合。做 AI 應(yīng)用就像做工廠,雖然做的事情看似高大上,但在實(shí)際操作中,還是要在“車間”里與客戶一起,逐步解決一個(gè)又一個(gè)問(wèn)題。

鄭巖: 在交付給客戶時(shí),您是否會(huì)和客戶約定一個(gè)準(zhǔn)確率的承諾指標(biāo),或者其他類似的標(biāo)準(zhǔn)?

吳昊宇: 準(zhǔn)確率的承諾指標(biāo)通常建立在數(shù)據(jù)集基礎(chǔ)上。客戶會(huì)提供他們?nèi)粘?wèn)答中常見(jiàn)的問(wèn)題和問(wèn)題類型,我們會(huì)根據(jù)這些問(wèn)題,進(jìn)行優(yōu)化,力爭(zhēng)解決 90% 的日常問(wèn)題。達(dá)到了這個(gè)目標(biāo)后,就可以交付了。

鄭巖: 像 AI 大模型這種技術(shù)我們無(wú)法做到“零 BUG”,這意味著可靠性評(píng)估最終還是要依賴評(píng)測(cè)集。但設(shè)計(jì)評(píng)測(cè)集的方式會(huì)影響指標(biāo)的表現(xiàn),所以,業(yè)界的各種評(píng)測(cè)集也在不斷迭代和優(yōu)化。

吳昊宇: 客戶關(guān)注的不是你給出的評(píng)測(cè)指標(biāo),而是從他們?nèi)粘?yīng)用或者業(yè)務(wù)價(jià)值出發(fā)。因此,每個(gè)客戶的評(píng)測(cè)集都可能不同,包括文檔范圍、內(nèi)容,甚至他們想問(wèn)的問(wèn)題類型都有差異。所以,評(píng)測(cè)集的設(shè)計(jì)和應(yīng)用確實(shí)是因客戶而異的。

楊浩: 在做模型時(shí),大家常聽(tīng)到“數(shù)據(jù)決定效果”,這條規(guī)則仍然適用于確保應(yīng)用的穩(wěn)定性。在 POC 階段,效果可能很好,但在線上面對(duì)更多不可控因素時(shí),問(wèn)題就暴露出來(lái)了,本質(zhì)上是因?yàn)閿?shù)據(jù)集不夠全面。

那么,如何解決?在實(shí)踐中,首先,我們會(huì)根據(jù)場(chǎng)景設(shè)置詳細(xì)的指標(biāo)體系。例如,在審核場(chǎng)景中,我們會(huì)針對(duì)不同的審核要素、審核點(diǎn)和審核單據(jù)等維度,設(shè)計(jì)精確度、召回率、準(zhǔn)確率等指標(biāo)。

第二,在上線過(guò)程中,我們采取了兩種模式。最初,我們并沒(méi)有完全用 AI 替代人工,而是將其作為輔助審核,最終決策依賴人工。在這個(gè)階段,我們與業(yè)務(wù)方密切合作,每周分析所有錯(cuò)誤案例,持續(xù)優(yōu)化模型。

上線初期,審核場(chǎng)景的準(zhǔn)確率僅為 20%,幾乎無(wú)法使用。經(jīng)過(guò)三個(gè)月的調(diào)優(yōu),準(zhǔn)確率提高到 90% 以上,在審核要點(diǎn)維度上達(dá)到了四個(gè) 9 的準(zhǔn)確率。

財(cái)務(wù)領(lǐng)域?qū)?zhǔn)確性要求極高,因此,我們首先采用輔助審核模式,不斷對(duì)齊和調(diào)整,確保準(zhǔn)確性。當(dāng)某個(gè)場(chǎng)景的準(zhǔn)確率足夠高時(shí),比如單一類目下審核的準(zhǔn)確率在三個(gè)月內(nèi)持續(xù)保持 100%,我們才會(huì)將該場(chǎng)景轉(zhuǎn)為無(wú)人值守,AI 自動(dòng)替代人工審核。但這并不意味著人完全不參與。

我們?cè)O(shè)有后續(xù)檢查流程,定期抽檢 AI 審核的單據(jù)。如果 AI 審核錯(cuò)誤,系統(tǒng)會(huì)回退到輔助模式。這種流程提供了容錯(cuò)空間,也允許我們逐步過(guò)渡到完全無(wú)人值守的模式。

鄭巖: 從 20% 到 90% 準(zhǔn)確率的提升過(guò)程中,最有效的措施是什么?

楊浩: 首先,我們?cè)O(shè)計(jì)了非常詳細(xì)的指標(biāo)體系,通過(guò)這些指標(biāo),我們可以反推每個(gè)案例的問(wèn)題所在。針對(duì)這些問(wèn)題,我們與業(yè)務(wù)方一起逐一對(duì)齊。我們將人工經(jīng)驗(yàn)注入到模型應(yīng)用中,這是一個(gè)非常復(fù)雜的過(guò)程。

鄭巖: 您是通過(guò) Prompt 工程還是通過(guò)訓(xùn)練將人工經(jīng)驗(yàn)對(duì)齊到模型中?

楊浩: 我們先通過(guò)工程化的方式將場(chǎng)景做到一定程度,然后再利用高質(zhì)量的數(shù)據(jù)集進(jìn)行訓(xùn)練,最終將這些經(jīng)驗(yàn)融入到模型中。

觀眾:怎么看待 A to A?

楊浩:MCP 解決的是人與技能之間的問(wèn)題,而 A to A 則是解決人與人之間的問(wèn)題。在財(cái)務(wù)領(lǐng)域會(huì)涉及一些場(chǎng)景,比如在接入新的業(yè)務(wù)時(shí),需要評(píng)估如何進(jìn)行核算、稅率是多少、是否為關(guān)聯(lián)交易等,這些場(chǎng)景通常需要不同領(lǐng)域的 Agent 之間進(jìn)行溝通和反復(fù)協(xié)作,但目前我們還沒(méi)有通過(guò) A To A 實(shí)現(xiàn) Agent 間的直接溝通,更多的還是在使用 MCP。

吳昊宇:A to A 其實(shí)是多 Agent 之間相互溝通的方式,這種方式會(huì)帶來(lái)更多的不確定性。不過(guò),我相信當(dāng) Agent 系統(tǒng)足夠豐富或復(fù)雜時(shí),Agent 之間如何互動(dòng)將會(huì)是行業(yè)未來(lái)的研究重點(diǎn)。

但現(xiàn)在,我們的首要任務(wù)是先確保單一 Agent 的功能完善,確保它能夠充分發(fā)揮自己的技能,再考慮如何實(shí)現(xiàn) A to A 的交互。

觀眾:幻覺(jué)問(wèn)題如何解決?

吳昊宇: 在做知識(shí)庫(kù)的過(guò)程中,我們發(fā)現(xiàn)幻覺(jué)問(wèn)題很多時(shí)候是因?yàn)榇竽P驮谧杂砂l(fā)揮。解決這個(gè)問(wèn)題的方法就是不斷調(diào)整 Prompt,確保大模型按規(guī)定執(zhí)行。比如,如果你發(fā)現(xiàn)它常常舉一些不存在的例子,就需要在 Prompt 中明確禁止它舉例,只允許引用原文。另一個(gè)常見(jiàn)問(wèn)題是某些模型喜歡合并同類項(xiàng),有時(shí)合并錯(cuò)誤。在這種情況下,你需要提示模型不要合并同類項(xiàng),而是直接按原文回答。

鄭巖: 企業(yè)內(nèi)部的很多“黑話”和術(shù)語(yǔ),是導(dǎo)致幻覺(jué)問(wèn)題的一個(gè)常見(jiàn)原因。比如說(shuō)“膠片”,很多人都不理解這個(gè)是什么意思,而大模型更理解不了,其實(shí)是指 PPT。

我們所處的行業(yè)技術(shù)性較強(qiáng),縮寫使用頻繁,很多時(shí)候我們需要幫助大模型理解這些縮寫和術(shù)語(yǔ),來(lái)消解它們的歧義。整體來(lái)說(shuō),隨著技術(shù)的進(jìn)步,大模型的幻覺(jué)問(wèn)題從指標(biāo)上來(lái)看已經(jīng)越來(lái)越少了。

觀眾:提示詞和模型微調(diào)是否能達(dá)到四個(gè) 9 的準(zhǔn)確率?

楊浩: 提示詞與提示詞之間有很大的差異,編寫一個(gè)好的提示詞并不簡(jiǎn)單。我們針對(duì)特定任務(wù)流程編寫了一套非常嚴(yán)格的專家框架,類似于 SOP。

在執(zhí)行任務(wù)時(shí),模型需要按照我們的要求一步步執(zhí)行,而且每一步之間可能還存在依賴關(guān)系。因此,準(zhǔn)確率的評(píng)估需要根據(jù)不同的場(chǎng)景來(lái)進(jìn)行,不能一概而論。

未來(lái)展望

鄭巖:現(xiàn)在優(yōu)秀的 AI 大模型層出不窮,企業(yè) AI 應(yīng)用如何應(yīng)對(duì)?當(dāng)大家都在談 AI Native 時(shí),各位心中理想的“智能體”應(yīng)該具備哪些特質(zhì)?當(dāng)前距離這個(gè)目標(biāo)還有多遠(yuǎn)?

吳昊宇: 理想中的 AI 智能體應(yīng)該類似于生命體,它具備感知、認(rèn)知和行動(dòng)能力,并能夠在實(shí)踐中不斷迭代和反饋。

此外,智能體應(yīng)該具備學(xué)習(xí)能力。現(xiàn)在我們的模型進(jìn)化依賴大量算力進(jìn)行訓(xùn)練,但生命體的學(xué)習(xí)速度遠(yuǎn)快于此。未來(lái)理想的智能體應(yīng)該能夠通過(guò)少量樣本或某種學(xué)習(xí)方式快速進(jìn)化,而不是像現(xiàn)在這樣從零開(kāi)始重新訓(xùn)練。

楊浩: 企業(yè)應(yīng)對(duì)大模型發(fā)展的方式可從模型和應(yīng)用兩個(gè)視角探討。底層大模型訓(xùn)練方面,企業(yè)需快速掌握模型架構(gòu)、訓(xùn)練方法和優(yōu)化算法,特別是獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì),關(guān)注技術(shù)深度。

應(yīng)用層面,核心是快速接入、評(píng)估、部署新模型,并利用其特性。替換底層模型時(shí),必須確保新模型準(zhǔn)確率優(yōu)于現(xiàn)有模型,否則會(huì)影響業(yè)務(wù)。

雖然理想的智能體可自我演化,但現(xiàn)實(shí)中模型的智能是有限的。評(píng)估智能體時(shí),應(yīng)關(guān)注設(shè)計(jì)、數(shù)據(jù)、領(lǐng)域知識(shí)和動(dòng)態(tài)性。AI Native 應(yīng)用設(shè)計(jì)不同于傳統(tǒng) GOI,需設(shè)計(jì)合適的卡片、工作流程和圖譜,復(fù)雜任務(wù)執(zhí)行圖與傳統(tǒng)設(shè)計(jì)有很大不同。

企業(yè)要深入了解和掌握內(nèi)部數(shù)據(jù),確保模型能夠理解和處理數(shù)據(jù)。領(lǐng)域知識(shí)對(duì)專家系統(tǒng)至關(guān)重要,尤其是在財(cái)務(wù)領(lǐng)域,了解會(huì)計(jì)、稅法等知識(shí)。模型應(yīng)具備動(dòng)態(tài)性,根據(jù)人類反饋?zhàn)晕覍W(xué)習(xí)。

鄭巖: 大模型發(fā)展確實(shí)非常非常快,配得上“日新月異”,因此在變化背后,我們就更需要抓住大模型的發(fā)展過(guò)程哪些是不變的。我之前簡(jiǎn)單總結(jié)過(guò),稱為“五更”,分別是:更強(qiáng)、更便宜、更快、更長(zhǎng)(的上下文)和更多模態(tài),這些趨勢(shì)基本上在最近三年一直保持著。

從 AI 工程和應(yīng)用的角度來(lái)看,我們要盡可能避開(kāi)這些大模型的主航道,不要在大模型快速發(fā)展的過(guò)程中“繡花”。畢竟,升級(jí)一個(gè)版本后,可能會(huì)發(fā)現(xiàn)你費(fèi)盡心力改進(jìn)的幾個(gè)百分點(diǎn),隨著更強(qiáng)的基模型發(fā)布,直接就可以帶來(lái)幾十個(gè)點(diǎn)的增益,之前的投入就白費(fèi)了。

另外,我認(rèn)為有一個(gè)問(wèn)題很多同行沒(méi)有被重視,就是評(píng)測(cè)。很多人認(rèn)為評(píng)測(cè)很基礎(chǔ)、低級(jí),認(rèn)為做大量的評(píng)測(cè)用例好像沒(méi)什么意義。但實(shí)際上,評(píng)測(cè)是 AI 能夠持續(xù)落地的關(guān)鍵。

如果測(cè)試集足夠好,它就能夠足夠好地還原業(yè)務(wù)本質(zhì)。如果評(píng)測(cè)工程做的足夠好,就能夠以更快的速度迭代 AI 應(yīng)用。在這個(gè)基礎(chǔ)上,再去優(yōu)化 AI,才能有的放矢。如果評(píng)測(cè)的方向錯(cuò)了或偏了,那很多努力就會(huì)浪費(fèi)。

鄭巖:在組織能力建設(shè)方面,各位觀察到哪些新型崗位正在崛起?傳統(tǒng)團(tuán)隊(duì)需要補(bǔ)充哪些“超能力”?

楊浩: 第一個(gè)崗位是“企業(yè)知識(shí)管理師”,AI 應(yīng)用依然遵循“有多少數(shù)據(jù)就有多少智能”的原則。因此,企業(yè)內(nèi)部的應(yīng)用需要有高質(zhì)量的數(shù)據(jù),知識(shí)越豐富,數(shù)字員工才有可能變得真正智能。

另外,很多互聯(lián)網(wǎng)公司實(shí)際上沒(méi)有完善的知識(shí)庫(kù),尤其是在業(yè)務(wù)快速發(fā)展的情況下,知識(shí)庫(kù)往往是后置的。

接著,傳統(tǒng)團(tuán)隊(duì)需要補(bǔ)充哪些超能力呢?比如我們這樣的工程型團(tuán)隊(duì),可能涉及的角色包括前端工程師、后端工程師、算法工程師、數(shù)據(jù)工程師、質(zhì)量工程師等。前端工程師以前主要做一些傳統(tǒng)的 GUI 應(yīng)用,比如有堆疊的導(dǎo)航欄和輸入框。

但在 AI 浪潮下,前端技術(shù)架構(gòu)需要進(jìn)行升級(jí),不能再依賴傳統(tǒng)的框架。后端工程師過(guò)去主要以 Java 為代表的技術(shù)棧為主,使用分布式系統(tǒng)的架構(gòu)。而現(xiàn)在,AI 應(yīng)用更多依賴 Python 技術(shù)棧,框架可能會(huì)轉(zhuǎn)向使用 LangChain 等新的工具。算法工程師以前做的多是機(jī)器學(xué)習(xí)、深度學(xué)習(xí)的小模型,而現(xiàn)在則是大模型,尤其是 transformer 模型,訓(xùn)練方法完全不同。

數(shù)據(jù)工程師過(guò)去可能更多使用 SQL 來(lái)處理數(shù)據(jù),現(xiàn)在則需要做邏輯建模、指標(biāo)工程,構(gòu)建符合自然語(yǔ)言交互的數(shù)據(jù)集市。質(zhì)量工程師過(guò)去測(cè)試主要關(guān)注功能驗(yàn)證,而現(xiàn)在的核心任務(wù)是構(gòu)建評(píng)測(cè)集,提升場(chǎng)景中的準(zhǔn)確率、召回率和精確率等指標(biāo)。核心是要加強(qiáng)這些技能的補(bǔ)充。

吳昊宇: 首先,大家需要理解 AI 能夠做什么,不能做什么,這個(gè)是通過(guò)不斷使用 AI 來(lái)摸索和理解的過(guò)程。例如,寫代碼的同事需要知道如何通過(guò) AI 代碼編輯器生成代碼,并理解 AI 寫出來(lái)的代碼能滿足什么樣的需求。他們需要與 AI 編輯器不斷交互,摸索出最適合的工作流程。

第二點(diǎn),AI 在日常工作中的作用。比如我們團(tuán)隊(duì)的成員現(xiàn)在基本上都用 AI 來(lái)寫 PPT,這種方式在 PPT 制作上已經(jīng)發(fā)生了巨大的變化。甚至在寫產(chǎn)品文檔時(shí),AI 也在幫助我們完成這些任務(wù)。

最后,就是對(duì)于 AI Native 產(chǎn)品的理解能力。如何將這些充滿不確定性的內(nèi)容展示給客戶,使其看起來(lái)具有確定性。這不僅是產(chǎn)品設(shè)計(jì)的問(wèn)題,也需要研發(fā)團(tuán)隊(duì)的同事去思考:如何確保產(chǎn)出的內(nèi)容能夠最大程度地控制不確定性,并在此基礎(chǔ)上提供一個(gè)可交付的效果?這也是我們?cè)诠ぷ髦胁粩嗝骱头e累出的能力。

活動(dòng)推薦|

AICon 2025 強(qiáng)勢(shì)來(lái)襲,5 月上海站、6 月北京站,雙城聯(lián)動(dòng),全覽 AI 技術(shù)前沿和行業(yè)落地。大會(huì)聚焦技術(shù)與應(yīng)用深度融合,匯聚 AI Agent、多模態(tài)、場(chǎng)景應(yīng)用、大模型架構(gòu)創(chuàng)新、智能數(shù)據(jù)基建、AI 產(chǎn)品設(shè)計(jì)和出海策略等話題。即刻掃碼購(gòu)票,一同探索 AI 應(yīng)用邊界!

直播回顧 | 不再“紙上談兵”,大模型能力如何轉(zhuǎn)化為實(shí)際業(yè)務(wù)價(jià)值

信息填寫

*手機(jī)號(hào)碼:

請(qǐng)選協(xié)議