貝葉斯學(xué)習
利用貝葉斯定理(Bayes' theorem)結合先驗概率與數據,獲得模型參數所呈現的概率分布的方法。人工智能的分支。
貝葉斯學(xué)習名稱(chēng)來(lái)源于數學(xué)家T.貝葉斯。T.貝葉斯在1963年證明了一個(gè)關(guān)于貝葉斯定理的特例,后經(jīng)多位統計學(xué)家的共同努力,貝葉斯學(xué)習在20世紀50年代之后逐步建立起來(lái),成為機器學(xué)習領(lǐng)域的一個(gè)重要組成部分。此后,貝葉斯學(xué)習在后驗推理、參數估計、模型檢測、隱概率變量模型等諸多方面有廣泛的應用。利用貝葉斯定理進(jìn)行近似求解,為機器學(xué)習算法的設計提供了一種有效途徑。
假定要估計的模型參數是服從一定分布的隨機變量,貝葉斯學(xué)習首先根據經(jīng)驗給出待估參數的先驗分布;然后根據這些先驗信息,并與實(shí)際觀(guān)測的樣本信息相結合,利用貝葉斯定理求出待估參數的后驗分布;再參考損失函數,得出后驗分布的一些特征值,并把它們作為待估參數的估計度量來(lái)選取最優(yōu)解。在所有的求解步驟中,貝葉斯方法使用概率的加和規則以及乘法規則對預測分布進(jìn)行估計。因此,貝葉斯學(xué)習有較好的數據適應性和可擴展性,可用于機器學(xué)習的諸多問(wèn)題:從單變量的分類(lèi)與回歸到多變量的結構化輸出預測,從有監督學(xué)習到無(wú)監督及半監督學(xué)習等。
傳統貝葉斯方法囿于其推理速度較慢,因此在大數據背景下很難適應新的模型的要求。因此,如何進(jìn)行大規模貝葉斯學(xué)習是學(xué)術(shù)界的重要挑戰之一。貝葉斯方法在大數據貝葉斯學(xué)習(big Bayesian learning,bigBayes)方面取得了顯著(zhù)的理論與算法進(jìn)展,包括隨機梯度及在線(xiàn)學(xué)習方法(對大規模數據集的多次隨機采樣在較短時(shí)間內得到較好結果)、分布式推理算法(部署分布式系統上的貝葉斯學(xué)習)、貝葉斯深度學(xué)習框架(貝葉斯神經(jīng)網(wǎng)絡(luò )的所有參數都是分布,網(wǎng)絡(luò )的預測輸出也是分布)等。 隨著(zhù)人工智能、機器學(xué)習技術(shù)研究的不斷深入,貝葉斯學(xué)習現已成為相關(guān)領(lǐng)域的一個(gè)熱點(diǎn)研究課題。除貝葉斯方法領(lǐng)域的專(zhuān)業(yè)性期刊或會(huì )議如貝葉斯分析(Bayesian Analysis)、應用貝葉斯統計國際會(huì )議(International Conference on Applied Bayesian Statistics)之外,貝葉斯學(xué)習方面的工作也廣泛出現在人工智能、機器學(xué)習領(lǐng)域的一流學(xué)術(shù)期刊或會(huì )議中。例如,2017年至2021年,人工智能與機器學(xué)習領(lǐng)域頂級會(huì )議國際人工智能聯(lián)合大會(huì )(IJCAI)、國際先進(jìn)人工智能協(xié)會(huì )會(huì )議(AAAI)、國際機器學(xué)習會(huì )議(ICML)、國際計算機視覺(jué)與模式識別會(huì )議(CVPR),以及神經(jīng)信息處理系統進(jìn)展會(huì )議(NeurIPS)上發(fā)表的貝葉斯學(xué)習論文數逾50篇。