超AI說|組織內海量信息共享難,檢索快準狠,獲取知識更容易組織內海量信息共享難
2021-10-26
信息檢索系統,其實在我們的生活和工作當中,已經有了很多大家可以實際感知的應用。比如說,在生活當中大家會通過搜索引擎去搜索自己想要的信息,這些都是通過主動搜索行為去使用的。在工作當中,大家也會去通過搜索的方式去檢索公司里面沉淀下來這些知識、文檔、學習資料。還有就是,今天越來越多的商業情報或者是政府新聞,也越來越多地開放在互聯網上面,大家會通過搜索商業情報去獲取合作伙伴或項目的背景知識。這些其實都是我們現實當中每天正在發生的。
信息檢索技術不管是在過去還是未來,它的研究重點都是在三個方面:快、準、狠。那么我們通常是通過什么樣的技術手段去解決呢?
“快”這個方面,我們實際上是要更快地把結果反饋給用戶,那就需要通過專業上叫做“索引結構”來解決。大家可以想象,以前查字典的時候,都是需要通過拼音或者部首偏旁,在字典里快速地定位這個字。針對不同的檢索的目標,網頁也好、文檔也好,其實都是需要用計算機的算法技術建立起一套好的索引結構,使其能夠很好地支撐上層的檢索。
“準”是說,當我們有了一系列候選的目標文檔或者目標建筑之后,怎么樣能夠知道這些目標中,有哪一些是符合我們用戶的需求?其實這是一個排序的問題。
“狠”更關注的是,我們怎么樣能把跟用戶搜索相關的目標全部檢索出來。相關其實包括很多方面,有可能是時下的熱點,也有可能是用戶搜索這個關鍵詞的語義延伸,也有可能是他所在位置附近的候選目標。所以有很多維度都相關,怎么樣能把這些相關的東西全部搜索出來不漏掉,這個是很關鍵的。
信息檢索這個領域的國際主流研究方向會在以下幾個方面:
這些研究方向在國內的落地瓶頸其實在于,我們怎么樣把互聯網產業的信息檢索研究成果,應用到我們實際上服務的各行各業:
針對剛才講的三個問題,明略科技其實在服務產業互聯網的過程當中已經積累了不少的經驗。
比如針對這個專業領域的數字、表格、公式、專業的名詞,我們已經能夠很快地針對數字類的、統計類的檢索場景做優化,并且我們可以很快積累專業領域的實體識別。
另外,如果我們沒有這么多的用戶使用行為,我們怎么樣建設精確的排序模型,返回給用戶最精確的知識、最精確的檢索結果?我們是通過我們強大的知識圖譜建設能力,相當于我們在檢索引擎背后有一張知識的網絡,可以在用戶的每一個搜索詞后面,知道它的語義涵蓋的所有相關的信息。
最后一點跟國際上的主流有交匯的地方,就是現在越來越多的這個檢索引擎支撐問答類的檢索方式,底層其實都是自然語言處理的技術。明略科技有很強大的自然語言處理團隊,能夠把最前沿的預訓練模型以及閱讀理解模型,運用到問答式的檢索場景。
這是我認為明略科技在信息檢索領域三個最大的特色。
信息填寫