天然語言處理(英文NaturallanguageProcessing,簡稱NLP)是人工智能(英文Artificialintelligence,簡稱AI)領域的重要研究課題,被稱為人工智能技術的掌上明珠,人與計算機之間用自然語言實現(xiàn)有效通信的各種理論和方法,涉及面非常廣泛。國際知名學者周海中先生指出:自然語言處理是一個極具吸引力的研究領域,具有重要的理論意義和實用價值。目前,NLP已經成為推動科學技術發(fā)展的強大動力,成為世界各國綜合國力競爭的焦點。
NLP主要研究各種理論和方法,可以實現(xiàn)人與計算機之間用自然語言進行有效的通信。使用自然語言與計算機進行通信具有非常重要的實用意義和革命性的理論意義。實現(xiàn)人機之間的自然語言通信意味著計算機不僅可以理解自然語言文本的含義,還可以用自然語言文本表達給定的意圖和思想。前者稱為自然語言理解(英語NaturallanguageUnderstanding,簡稱NLU),后者稱為自然語言生成(英語NaturallanguageGeration,簡稱NLG)。所以NLP一般包括NLU和NLG;因為處理自然語言的關鍵是讓計算機理解自然語言,所以一般把NLU視為NLP,也叫計算語言學。
NLP是一門集語言學、計算機科學和數(shù)學于一體的科學。所以這個領域的研究會涉及到自然語言,也就是人們日常使用的語言,所以它和語言學的研究有著密切的聯(lián)系,但是有著重要的區(qū)別。NLP不是一般研究自然語言,而是開發(fā)一個能有效實現(xiàn)自然語言通信的計算機系統(tǒng),尤其是軟件系統(tǒng)。所以是計算機科學的一部分。可以說,NLP是計算機科學、語言學、人工智能等關注計算機和人類語言相互作用的領域。目前,人們對人工智能的需求已經從計算智能和感知智能轉變?yōu)橐訬LP為代表的認知智能。沒有成功的NLP,就沒有真正的認知智能。
因為人工智能包括感知智能(如圖像識別、語言識別和手勢識別等)和認知智能(主要是語言理解知識和推理),語言在認知智能中扮演著重要角色。假如能夠解決語言問題,人工智能最困難的部分也將基本解決。美國微軟公司創(chuàng)始人比爾·蓋茨先生曾說過,語言理解是人工智能領域皇冠上的明珠。前微軟全球執(zhí)行副總裁沈向洋先生也在公開演講中說:了解語言的人得天下…下一個十年,人工智能的突破在于對自然語言的理解…人工智能對人類影響最大的是自然語言。因為了解自然語言需要對外部世界的廣泛知識和應用操作這些知識的能力,NLP也被認為是解決AI完整(AI-complete)的核心問題之一。NLP現(xiàn)在是AI領域的一個重要研究課題,對其研究也充滿了魅力和挑戰(zhàn)。
目前,人工智能技術在認知智能方面仍然面臨著諸多挑戰(zhàn)。假如我們有所提高,我們的認知智能將進一步提高,包括語言理解、推理、回答問題、分析、解決問題、寫作、對話等等。再加上感知智能的提高,聲音、圖像、文字的識別和生成,以及多模態(tài)文字、圖交叉的能力,通過文字可以生成圖像,根據圖像可以生成描述的文字等等,我們可以推動許多人類的應用,包括搜索引擎、智能客戶服務,包括教育、財政、電子商務等各個方面的應用;還可以將AI技術應用于我們的行業(yè),幫助行業(yè)實現(xiàn)數(shù)字化轉型。
NLPNLP研究是機器翻譯。1949年,美國著名科學家沃倫·韋弗先生首先提出了機器翻譯設計方案。20世紀60年代,許多科學家對機器翻譯進行了大規(guī)模的研究,花費了巨大的成本。然而,他們顯然低估了自然語言的復雜性,語言處理的理論和技術不成熟,所以進展不大。當時的主要做法是存儲兩種語言的單詞和短語對應翻譯的大辭典,翻譯時一一對應,技術上只是調整同一種語言的順序。然而,日常生活中語言的翻譯遠不是那么簡單。在很多情況下,我們需要參考某句話前后的含義,需要上下文的聯(lián)系才能正確翻譯——這就是機器翻譯技術難度高的地方。
大約從20世紀90年代開始,NLP領域發(fā)生了巨大的變化。這種變化有兩個明顯的特點:(1)對于系統(tǒng)的輸入,要求開發(fā)的NLP系統(tǒng)可以處理大規(guī)模的真實文本,而不是像以前的研究系統(tǒng)那樣,只能處理少量的詞條和典型句子。只有這樣,開發(fā)出來的系統(tǒng)才有真正的實用價值。(2)對于系統(tǒng)的輸出,鑒于對自然語言的真實理解非常困難,對于系統(tǒng)來說,不需要對自然語言文本有深入的理解,但要從中提取有用的信息。同時,由于強調大規(guī)模和真實文本,以下兩個基礎工作也得到了重視和加強:(1)大規(guī)模真實語料庫的開發(fā)。經過大規(guī)模不同深度加工的真實文本的語料庫是研究自然語言統(tǒng)計性質的基礎;如果沒有這樣的語料庫,統(tǒng)計方法只能是無源之水。(2)大規(guī)模、信息豐富的詞典搭配,甚至包含數(shù)萬字典的數(shù)十幾十萬詞典。
NLP的許多領域都體現(xiàn)了系統(tǒng)的輸入輸出這兩個特點,它的發(fā)展直接推動了計算機自動檢索技術的出現(xiàn)和興起。事實上,隨著計算機技術的不斷發(fā)展,基于大量計算的機器學習、數(shù)據挖掘、數(shù)據建模等技術的表現(xiàn)也越來越出色。NLP之所以能度過寒冬,再一次發(fā)展,也是因為計算機科學和統(tǒng)計科學的不斷結合,使人類甚至機器能夠不斷地從大量的數(shù)據中發(fā)現(xiàn)和學習特征。但是,要實現(xiàn)對自然語言的真正理解,僅從原始文本中學習是不夠的,我們還需要新的方法和模型。
目前存在的問題主要有兩個方面:一方面,迄今為止的語法僅限于分析孤立的句子,上下文關系和對話環(huán)境對句子的約束和影響缺乏系統(tǒng)的研究。因此,分析歧義、詞匯省略、代詞所指、同一句話在不同場合或不同人說出的不同意思沒有明確的規(guī)律可循,需要加強語義學和語用學的研究才能逐步解決。另一方面,人們理解一個句子不僅僅是語法,還使用了大量的相關知識,包括生活知識和專業(yè)知識,這些知識不能全部儲存在計算機中。因此,書面理解系統(tǒng)只能建立在有限的詞匯、句型和特定的主題范圍內;計算機的儲存和運行速度大大提高后,才能適當擴大范圍。
由于語言工程和認知科學主要局限于實驗室,數(shù)據處理可能是NLP應用場景最多的發(fā)展方向。事實上,自進入大數(shù)據時代以來,各大平臺從未停止過對用戶數(shù)據的深入挖掘。為了提取有用的信息,僅提取關鍵詞和統(tǒng)計詞頻是遠遠不夠的,必須對用戶數(shù)據(尤其是演講、評論等)進行語義理解。)。此外,利用離線大數(shù)據統(tǒng)計分析的方法研究NLP任務是目前非常有潛力的研究范式,尤其是谷歌、推特、百度等大公司在這種應用中的成功經驗,引領了當前大數(shù)據研究的浪潮。
NLP是為各類企業(yè)和開發(fā)商提供的文本分析和挖掘的核心工具,已廣泛應用于電子商務、金融、物流、醫(yī)療、文化娛樂等行業(yè)的客戶。它可以幫助用戶建立智能產品,如內容搜索、內容推薦、輿情識別和分析、文本結構化、對話機器人等。它還可以通過合作定制個性化解決方案。由于了解自然語言,需要外部世界的廣泛知識和應用操作知識的能力,因此NLP也被視為解決強大人工智能的核心問題之一,其未來一般與人工智能發(fā)展密切結合,尤其是設計模仿人腦的神經網絡。
成都融和實業(yè)排隊叫號系統(tǒng)廠家(wwwu9yycom.cn)是一家集研發(fā)、生產、營銷、服務于一體的高新技術企業(yè).主營智能排隊叫號系統(tǒng)、醫(yī)院分診系統(tǒng)、排隊機、叫號機、評價器(好差評系統(tǒng))、呼叫器、多媒體查詢及信息發(fā)布配套系統(tǒng)等,公司產品已廣泛應用于不動產登記、智慧醫(yī)療、智慧稅務、智慧政務、智慧金融、智慧通訊、智慧服務大廳、智慧機關單位等服務窗口行業(yè).咨詢電話:028-87438905。