AI落地四大實戰策略:私有化部署+RAG技術+多模態處理詳解|直播回顧第二彈
2025-03-13
DeepSeek的興起讓企業看到了AI的巨大潛力,但落地過程中的難題卻讓許多企業望而卻步。數據安全如何保障?模型準確性如何提升?各行各業如何在業務場景下應用?這些問題正成為企業AI轉型的關鍵。
2月27日,明略科技高級技術總監吳昊宇受邀做客51CTO直播間,分享了用好AI,解鎖創新密碼的實戰經驗。
直播干貨已整理為系列文章,近期將陸續發布。
私有化部署的數據存儲在企業內部機房或其信任的云環境中,數據安全性相對較高。對于非私有化部署,我們從兩方面保障數據安全和隱私:
一是服務商需要做好用戶數據的隔離和保護,簽訂安全協議和數據歸屬協議;二是與云廠商合作,確保數據不被用于訓練。
對于特別敏感的數據,我們建議使用小型私有化模型。在非敏感場景,比如日常對話、聯網搜索,公有模型完全可用。
效果取決于場景。以知識庫為例,知識庫現在是當前企業落地最廣泛的應用。它的效果不僅與模型本身相關,還與前期的預處理密切相關。企業文檔類型多樣,包括Word、Excel、PPT、PDF及TXT等,對于這些不同類型的文件處理,企業需要下大功夫去研究。比方說我們要進行版面解析、多模態預處理等操作,甚至還要建立小型數據庫,以優化查詢效果。模型拿到什么樣的材料,加工得出什么樣的結論,預處理是特別關鍵的一個環節。
我們知道,R1的推理能力很強,但它喜歡“添油加醋”,在處理信息時會加入很多自己的想象和發散的內容。此前海外的一項評測顯示,R1的幻覺比例達到約14%。我們在醫藥場景也多次發現,R1在回答醫藥問答時,特別喜歡舉例子。比如,藥品說明書可能只提到某種病癥可以使用某類藥物進行治療,但R1會利用自己的知識補充更多內容,這就存在很大風險。在這種情況下,我們就需要單獨處理。
比如,對R1的Prompt進行針對性改造,明確要求它在引用原文時不要舉例,也不要合并相關實體。經過限制后,R1的正確率反而比之前使用的最好的模型正確率高出大約兩個百分點。無論是通過微調,還是Prompt限制,我們都能讓它發揮出原有的,甚至比之前最好的模型更好的能力,這也是我們在知識庫場景中積累的經驗。
現在模型更新速度非常快,特別是開源模型,一兩個月就可能推出一個新版本。所以對于中小型企業,我們推薦通過RAG的方式實現更好的效果,相當于為模型提供一個外掛知識庫。只要數據檢索、數據處理到位,用戶都能找到自己想要的知識,在執行總結、推理等任務上,大模型已經表現非常出色。
具體到廣告行業,營銷從業者想知道,當一個20歲的女生看到化妝品廣告時,廣告能否激發她的興奮感?她的目光是聚焦在產品本身,還是廣告中的女明星?這些都是品牌方需要深入研究的問題。然而,無論是目前的開源模型,還是市場上常見的大模型,都無法解決這一問題,因為缺乏相關數據的輸入。
在這種情況下,我們自研了垂直領域的多模態大模型——明敬超圖多模態大模型,通過人類腦電和眼動信號,模擬人類主觀反應,解決開源模型無法滿足的實際業務需求。
各行業確實需要不同的定制策略。對于營銷行業來說,數據量其實是非常重要的。從狹義上講,營銷就是廣告;廣義來說,營銷還可以拓展到社交媒體上的KOL、KOS發布的種草帖。用戶在不同社媒平臺上發帖的風格是不一樣的,平臺推品的邏輯也是不一樣的。作為國內最大的數據智能應用軟件提供商、以及營銷智能應用軟件提供商,我們可以基于海量數據進行分析和訓練,幫助企業形成科學精準的營銷分析。
DeepSeek、Manus正加速企業AI化進程。企業打通最后一公里仍面臨不少挑戰和難題。
AI原生應用的臨界點到了嗎?未來企業的護城河將建立在哪些維度?
更多問題答案,請持續關注~
直播干貨已整理為系列文章,近期將陸續發布。
信息填寫