超AI說|前沿NLP技術讓機器善解人意,從感知智能躍向認知智能
2021-10-29
說到自然語言處理(NLP)到底干什么的,我們可以舉個例子。假如孔子穿越到現在,他理解現代漢語也是需要成本的。因為語言是動態的,需要放在時間和空間的維度上去看待,它是不斷演化的。我們每天都會產生一些新詞,比如說“不明覺厲”、“同九義,何汝秀”,同時我們要摒棄一些舊詞,比如說“三綱五常”。
其實,語言不止在時間和空間上有gap,人類與機器之間也存在一個gap。自然語言處理主要就是解決這個gap,讓機器能夠讀懂人類的語言,包括人類的書面語或者口語。
說到人類與機器的最大的gap,我們首先想到的是思維。人類是有思維的,而機器沒有。現階段人類與機器最大的gap,我覺得應該是語義。人類的語義主要通過文字、聲音、表情等去表達;而機器是冰冷的,只懂得0和1的語言。
如何將人類與機器的gap縮短,顯然有兩條路:第一條路,我們把人類的語言轉化為機器能夠讀懂的語言;第二條路,讓機器能夠自動地讀懂人類的感情、人類的聲音。顯然,第二條路是非常苛刻的,我們既然勉強不了機器,我們可以嘗試去改變自己。
說到技術,我們可以先回顧一下近十年來NLP的重大的突破。
首先,在2013年谷歌提出word2vec這個word embedding之前,詞袋模型和TF-IDF有絕對的江湖地位。word2vec出現后,迅速席卷了整個NLP領域的各大任務,一直到2018年BERT的出現。BERT的出現直接顛覆了NLP的研究格局,橫掃了NLP的各個領域。
我們可以發現,包括word2vec,還有word embedding這種方式,以及BERT,它們都有一個共同的特點,就是預訓練。word2vec這種word embedding方式,預訓練的是語言模型,而BERT是結合了下游任務進行了預訓練。至此,NLP領域出現了全新的解題范式:預訓練加微調。
確實,預訓練加微調給我們帶來很多的方便,它能夠使NLP工程師快速地入門,也就是說門檻變低了,能夠快速地實現算法的工程化。那么這種范式到底能夠走多遠呢?它到底是否能夠解決所有的問題、所有的NLP任務呢?
我個人覺得,它暫時還解決不了所有的任務。
因為目前算法尤其是這種范式,在數據固定、場景固定的情況下,能取得很好的效果,但如果是放在一個稍微開放的情況下,它不見得能夠取得完整的效果。
另外,這種范式結合下游任務,比如文本分類、智能問答,能夠取得很好的效果,但是對于NLP的一些基礎性的研究,比如中文分詞、新詞發現,它不見得會取得那么好的結果。
同時,在這種范式下,有一個很重要的前提,就是基于海量的數據。我們也知道,在現實場景下,很多領域并不一定具有那么多的數據量,或者它的數據是離散的,并沒有集中到一起,那這個時候,采用這種范式去解決問題,并不見得會取得很好的效果。
明略科學院目前匯集了全來自于全球人工智能領域的五十多位科學家,其次,明略科技聚焦于場景、聚焦于技術,然后由點及面。
在數據方面,我們積累了海量的數據,同時明略科技深耕營銷、公安、金融等領域多年,每天有數十億的數據產生,來支撐我們基于深度學習的訓練加微調。
另外,在技術廣度方面,明略科技也有自己的技術沉淀。首先,明略科技不止專注于應用型的NLP研究,同時也專注于基礎型的NLP研究,比如說中文分詞、命名實體識別,因為每個領域它都有不同的詞需要我們去發現。其次,明略科技將知識圖譜和深度學習進行有機結合,因為深度學習方法本身不太具有可解釋性,而知識圖譜是個白盒,它具有很好的可解釋性。因此,我們將深度學習和知識圖譜有機地結合起來,進行優勢互補,我們叫“白加黑”,雙管齊下。我們的另外一個技術非常有代表性的一個技術特色是多模態,我們將文本、語音、圖像進行有機結合,形成了我們的HAO模塊, HAO交互、HAO圖譜。
在技術深度這個角度,明略科技有自己的預訓練模型。同時我們也專注于圖神經網絡在NLP領域、在知識圖譜領域的應用。
信息填寫