統計語(yǔ)言學(xué)
傳統的統計語(yǔ)言學(xué)研究領(lǐng)域主要包括幾個(gè)方面:①統計語(yǔ)言單位的出現頻率,如對詞匯和音位、語(yǔ)素出現的頻率進(jìn)行統計研究。②統計作家的用詞頻率、詞長(cháng)分布和句長(cháng)分布,以了解作家運用語(yǔ)言的風(fēng)格;用這種方法還可判定匿名文章的作者。③計算語(yǔ)言存在的絕對年代以及親屬語(yǔ)言從共同原始語(yǔ)分化出來(lái)的年代,這方面的研究稱(chēng)語(yǔ)言年代學(xué),又稱(chēng)詞源統計分析法。此外,還可對親屬語(yǔ)言的語(yǔ)法、語(yǔ)音體系進(jìn)行統計、比較。④采用信息論方法研究語(yǔ)言的熵和羨余度。語(yǔ)言的熵指在交際過(guò)程中語(yǔ)言符號出現的不定度,其大小與語(yǔ)言的熵的高低一致。當語(yǔ)言的接收者收到語(yǔ)言符號后,不定度被消除,熵等于零,因而在交際過(guò)程中,語(yǔ)言接收者所得到的信息量等于被消除的熵。語(yǔ)言羨余度是指語(yǔ)言中超過(guò)傳遞最少需要量的信息量的比例,在一般情況下,為了保證對方能夠理解,會(huì )提供比實(shí)際需要更多的信息量,因此,不論在書(shū)面語(yǔ)還是口語(yǔ)中,語(yǔ)言都有羨余度。⑤探討語(yǔ)言的一般統計規律。例如,在按頻率遞減順序排列的頻率詞典中,詞的序號越大,詞的頻率越小,序號與頻率之間的關(guān)系可以用數學(xué)公式描述為一定的統計規律——齊夫定律。⑥運用隨機過(guò)程論研究語(yǔ)言,把語(yǔ)言看成彼此聯(lián)系的字母序列,前一個(gè)字母決定后一個(gè)字母的出現,于是形成一條字母鏈,稱(chēng)為“馬爾可夫鏈”。⑦研究文章中兩個(gè)詞之間、兩個(gè)語(yǔ)法范疇之間、兩個(gè)語(yǔ)義類(lèi)型之間或兩個(gè)句法類(lèi)型之間的間距,以揭示文章在句法或語(yǔ)義上的特征。⑧研究語(yǔ)言的詞匯與文章長(cháng)度的關(guān)系,以揭示文章中詞匯的豐富程度和差異程度。
統計語(yǔ)言學(xué)在數理語(yǔ)言學(xué)中有比較悠久的歷史。古印度語(yǔ)法學(xué)家在研究《吠陀》時(shí)進(jìn)行過(guò)單詞和音節數目的統計。1851年,英國數學(xué)家A.de摩根(A. de Morgen)曾把詞長(cháng)作為文章風(fēng)格的一個(gè)特征而加以統計研究。英國的L.坎貝爾(L. Campbell)于1867年、德國的W.迪丁貝爾格(W. Ditingberg)于1881年都曾采用統計方法確定柏拉圖著(zhù)作的寫(xiě)作時(shí)期。1887年,美國的T.C.門(mén)登霍爾(T. C. Mendenhauer)對英國文學(xué)作品、特別是莎士比亞的作品進(jìn)行過(guò)統計分析。1913年,俄羅斯的A.A.馬爾可夫(A. A. Markov)研究了俄語(yǔ)中字母序列的生成問(wèn)題,提出了馬爾可夫隨機過(guò)程論。1935年,美國G.K.齊夫發(fā)表了齊夫定律。1944年,英國數學(xué)家G.U.尤勒(G. U. Yule)在《文學(xué)詞語(yǔ)的統計分析》一書(shū)中廣泛使用概率和統計方法研究語(yǔ)言。1950年,美國的M.斯瓦迪士(M. Swadesh)進(jìn)行了語(yǔ)言年代學(xué)的研究。1951年,美國數學(xué)家C.E.香農(Claude Elwood Shannon,1916~2001)采用信息論的方法研究書(shū)面英語(yǔ)中的熵和羨余度,美國的V.英格維(V. Yngve)對句法現象進(jìn)行了間距分析。1954年,法國的P.基羅(P. Guiraud)根據文章中詞的頻率分布提出了詞匯豐富度的概念。1956年,英國的G.赫丹(G. Herdan)出版了《語(yǔ)言是選擇和機遇》一書(shū),系統總結了統計語(yǔ)言學(xué)的研究成果。幾十年來(lái),在語(yǔ)言統計中日益廣泛地使用計算機,逐漸改變了傳統的手工查頻的統計辦法,提高了統計的效率和精度。
統計語(yǔ)言學(xué)大致可分為語(yǔ)音統計學(xué)、詞匯統計學(xué)、語(yǔ)法統計學(xué)和語(yǔ)義統計學(xué),分別研究語(yǔ)言的語(yǔ)音、詞匯、語(yǔ)法和語(yǔ)義的統計特征。從描寫(xiě)的角度出發(fā),詞匯統計學(xué)又可以分為年代統計學(xué)、風(fēng)格統計學(xué)和分類(lèi)統計學(xué)三個(gè)分支,分別根據時(shí)代的變化、作者寫(xiě)作風(fēng)格的不同和語(yǔ)言的類(lèi)屬或起源對詞匯特征進(jìn)行統計分析。 語(yǔ)料庫語(yǔ)言學(xué)的發(fā)展使統計語(yǔ)言學(xué)得到了的重視。學(xué)者們采用統計方法從大規模真實(shí)文本語(yǔ)料庫中獲取語(yǔ)言知識,使用隱馬爾可夫模型、噪聲信道理論等從統計的角度研究語(yǔ)言,統計語(yǔ)言學(xué)得到進(jìn)一步的發(fā)展和應用。 早在1947年,美國的W.韋弗在他的以《翻譯》為題的備忘錄中,提出了使用解讀密碼的方法來(lái)進(jìn)行機器翻譯,這種所謂“解讀密碼”的方法實(shí)質(zhì)上就是一種統計的方法,他是想用基于統計的方法來(lái)解決機器翻譯問(wèn)題。但是,由于當時(shí)缺乏高性能的計算機和聯(lián)機語(yǔ)料(corpus on line),采用基于統計的機器翻譯在技術(shù)上還不成熟,韋弗的這種方法在當時(shí)是難以付諸實(shí)現的。直到20世紀90年代現隨著(zhù)計算機在速度和容量等方面大幅度的提高,再加上出現了大量的聯(lián)機語(yǔ)料可供統計使用,因此,基于統計的機器翻譯又興盛起來(lái)。
在韋弗思想的基礎上,IBM公司的P.布朗(Peter Brown,美國)等人提出了統計機器翻譯的數學(xué)模型。越來(lái)越多的互聯(lián)網(wǎng)和軟件公司都推出了基于統計的在線(xiàn)的機器翻譯系統。例如,谷歌的多語(yǔ)言在線(xiàn)機器翻譯系統Google Translate、百度的在線(xiàn)英漢機器翻譯系統。在線(xiàn)統計機器翻譯系統不僅直接推動(dòng)了機器翻譯研究的發(fā)展,而且方便了人們的生活與學(xué)習,人類(lèi)的語(yǔ)言障礙正在逐漸得到克服。這是信息時(shí)代自然語(yǔ)言處理研究的重大成果。 機器翻譯研究的大量事實(shí)證明,在機器翻譯中,對語(yǔ)言的分析并非越精確越好。目前,人們更加傾向于通過(guò)擴大語(yǔ)言模型訓練數據規模進(jìn)行機器深度學(xué)習的方法,從大規模真實(shí)的語(yǔ)料中獲取對于機器翻譯有用的語(yǔ)言知識,并適當地進(jìn)行一些淺層的語(yǔ)言分析,把基于統計的機器翻譯與基于規則的機器翻譯結合起來(lái),爭取得到最好的機器翻譯結果,而這種最好的機器翻譯結果,可以是全自動(dòng)的,但卻不一定是高質(zhì)量的,而只是具有較高參考性的譯文。 除了統計機器翻譯之外,統計語(yǔ)言學(xué)的許多研究成果,對于通信技術(shù)、語(yǔ)言教學(xué)和自然語(yǔ)言處理也很有價(jià)值。在統計語(yǔ)言學(xué)的基礎之上,對于語(yǔ)言現象進(jìn)行計量研究,探討語(yǔ)言本體的自組織、自適應的統計規律性,產(chǎn)生了一門(mén)新的學(xué)科,稱(chēng)為計量語(yǔ)言學(xué)。
免責聲明:本站詞條系由網(wǎng)友創(chuàng )建、編輯和維護,內容僅供參考。
以上內容均為商業(yè)內容展示,僅供參考,不具備專(zhuān)業(yè)問(wèn)題解決服務(wù),
如果您需要解決具體問(wèn)題(尤其在法律、醫學(xué)等領(lǐng)域),建議您咨詢(xún)相關(guān)領(lǐng)域的專(zhuān)業(yè)人士。
如您發(fā)現詞條內容涉嫌侵權,請通過(guò) 948026894@qq.com 與我們聯(lián)系進(jìn)行刪除處理!