AI落地四大實(shí)戰(zhàn)策略:私有化部署+RAG技術(shù)+多模態(tài)處理詳解|直播回顧第二彈
2025-03-13
DeepSeek的興起讓企業(yè)看到了AI的巨大潛力,但落地過程中的難題卻讓許多企業(yè)望而卻步。數(shù)據(jù)安全如何保障?模型準(zhǔn)確性如何提升?各行各業(yè)如何在業(yè)務(wù)場(chǎng)景下應(yīng)用?這些問題正成為企業(yè)AI轉(zhuǎn)型的關(guān)鍵。
2月27日,明略科技高級(jí)技術(shù)總監(jiān)吳昊宇受邀做客51CTO直播間,分享了用好AI,解鎖創(chuàng)新密碼的實(shí)戰(zhàn)經(jīng)驗(yàn)。
直播干貨已整理為系列文章,近期將陸續(xù)發(fā)布。
私有化部署的數(shù)據(jù)存儲(chǔ)在企業(yè)內(nèi)部機(jī)房或其信任的云環(huán)境中,數(shù)據(jù)安全性相對(duì)較高。對(duì)于非私有化部署,我們從兩方面保障數(shù)據(jù)安全和隱私:
一是服務(wù)商需要做好用戶數(shù)據(jù)的隔離和保護(hù),簽訂安全協(xié)議和數(shù)據(jù)歸屬協(xié)議;二是與云廠商合作,確保數(shù)據(jù)不被用于訓(xùn)練。
對(duì)于特別敏感的數(shù)據(jù),我們建議使用小型私有化模型。在非敏感場(chǎng)景,比如日常對(duì)話、聯(lián)網(wǎng)搜索,公有模型完全可用。
效果取決于場(chǎng)景。以知識(shí)庫為例,知識(shí)庫現(xiàn)在是當(dāng)前企業(yè)落地最廣泛的應(yīng)用。它的效果不僅與模型本身相關(guān),還與前期的預(yù)處理密切相關(guān)。企業(yè)文檔類型多樣,包括Word、Excel、PPT、PDF及TXT等,對(duì)于這些不同類型的文件處理,企業(yè)需要下大功夫去研究。比方說我們要進(jìn)行版面解析、多模態(tài)預(yù)處理等操作,甚至還要建立小型數(shù)據(jù)庫,以優(yōu)化查詢效果。模型拿到什么樣的材料,加工得出什么樣的結(jié)論,預(yù)處理是特別關(guān)鍵的一個(gè)環(huán)節(jié)。
我們知道,R1的推理能力很強(qiáng),但它喜歡“添油加醋”,在處理信息時(shí)會(huì)加入很多自己的想象和發(fā)散的內(nèi)容。此前海外的一項(xiàng)評(píng)測(cè)顯示,R1的幻覺比例達(dá)到約14%。我們?cè)卺t(yī)藥場(chǎng)景也多次發(fā)現(xiàn),R1在回答醫(yī)藥問答時(shí),特別喜歡舉例子。比如,藥品說明書可能只提到某種病癥可以使用某類藥物進(jìn)行治療,但R1會(huì)利用自己的知識(shí)補(bǔ)充更多內(nèi)容,這就存在很大風(fēng)險(xiǎn)。在這種情況下,我們就需要單獨(dú)處理。
比如,對(duì)R1的Prompt進(jìn)行針對(duì)性改造,明確要求它在引用原文時(shí)不要舉例,也不要合并相關(guān)實(shí)體。經(jīng)過限制后,R1的正確率反而比之前使用的最好的模型正確率高出大約兩個(gè)百分點(diǎn)。無論是通過微調(diào),還是Prompt限制,我們都能讓它發(fā)揮出原有的,甚至比之前最好的模型更好的能力,這也是我們?cè)谥R(shí)庫場(chǎng)景中積累的經(jīng)驗(yàn)。
現(xiàn)在模型更新速度非??欤貏e是開源模型,一兩個(gè)月就可能推出一個(gè)新版本。所以對(duì)于中小型企業(yè),我們推薦通過RAG的方式實(shí)現(xiàn)更好的效果,相當(dāng)于為模型提供一個(gè)外掛知識(shí)庫。只要數(shù)據(jù)檢索、數(shù)據(jù)處理到位,用戶都能找到自己想要的知識(shí),在執(zhí)行總結(jié)、推理等任務(wù)上,大模型已經(jīng)表現(xiàn)非常出色。
具體到廣告行業(yè),營(yíng)銷從業(yè)者想知道,當(dāng)一個(gè)20歲的女生看到化妝品廣告時(shí),廣告能否激發(fā)她的興奮感?她的目光是聚焦在產(chǎn)品本身,還是廣告中的女明星?這些都是品牌方需要深入研究的問題。然而,無論是目前的開源模型,還是市場(chǎng)上常見的大模型,都無法解決這一問題,因?yàn)槿狈ο嚓P(guān)數(shù)據(jù)的輸入。
在這種情況下,我們自研了垂直領(lǐng)域的多模態(tài)大模型——明敬超圖多模態(tài)大模型,通過人類腦電和眼動(dòng)信號(hào),模擬人類主觀反應(yīng),解決開源模型無法滿足的實(shí)際業(yè)務(wù)需求。
各行業(yè)確實(shí)需要不同的定制策略。對(duì)于營(yíng)銷行業(yè)來說,數(shù)據(jù)量其實(shí)是非常重要的。從狹義上講,營(yíng)銷就是廣告;廣義來說,營(yíng)銷還可以拓展到社交媒體上的KOL、KOS發(fā)布的種草帖。用戶在不同社媒平臺(tái)上發(fā)帖的風(fēng)格是不一樣的,平臺(tái)推品的邏輯也是不一樣的。作為國內(nèi)最大的數(shù)據(jù)智能應(yīng)用軟件提供商、以及營(yíng)銷智能應(yīng)用軟件提供商,我們可以基于海量數(shù)據(jù)進(jìn)行分析和訓(xùn)練,幫助企業(yè)形成科學(xué)精準(zhǔn)的營(yíng)銷分析。
DeepSeek、Manus正加速企業(yè)AI化進(jìn)程。企業(yè)打通最后一公里仍面臨不少挑戰(zhàn)和難題。
AI原生應(yīng)用的臨界點(diǎn)到了嗎?未來企業(yè)的護(hù)城河將建立在哪些維度?
更多問題答案,請(qǐng)持續(xù)關(guān)注~
直播干貨已整理為系列文章,近期將陸續(xù)發(fā)布。
信息填寫