在線(xiàn)學(xué)習算法
順序地根據歷史數據和可用信息做出預測或者決策的過(guò)程。它是人工智能和機器學(xué)習的一個(gè)重要分支領(lǐng)域。
傳統機器學(xué)習(統計學(xué)習)通常的工作方式是先獲得批量的訓練數據并且離線(xiàn)地學(xué)習數據的有意義的模式,最后將學(xué)習到的模型固定不變地應用于測試數據中。與之不同,在線(xiàn)學(xué)習過(guò)程中的數據是順序地提供的。在線(xiàn)學(xué)習的工作模式是循環(huán)往復地根據歷史數據和當前可用信息做出預測或者決策,收集反饋數據(可能只有部分信息)以改善系統自身性能,并且獲得相應獎勵或者承受相應懲罰。簡(jiǎn)而言之,傳統機器學(xué)習采取的是“先學(xué)習后使用”的工作模式,而在線(xiàn)學(xué)習則是采用“邊學(xué)習邊使用”的工作模式。
除了工作場(chǎng)景和模式不同外,它們的理論假設和學(xué)習目標也有區別。統計學(xué)習一般假定數據是獨立同分布的,其目標是使得學(xué)習到的模型與真實(shí)模型在該數據分布下的性能差距盡可能地小。但是在線(xiàn)學(xué)習一般并不對數據的分布做出假設,數據序列可以是確定性的、隨機的、甚至是對抗性的。最大化學(xué)習過(guò)程中的累積收益或者最小化累積懲罰是在線(xiàn)學(xué)習的一個(gè)自然目標。為了便于評價(jià)和分析在線(xiàn)學(xué)習算法的性能,人們提出了一個(gè)稱(chēng)為悔(regret)的評價(jià)指標。它被定義為在線(xiàn)學(xué)習算法的累積收益(或者累積懲罰)與一直選取一個(gè)最優(yōu)的模型(在某個(gè)假設空間中)所取得的累積收益(或者累積懲罰)之差。一個(gè)好的在線(xiàn)學(xué)習算法應該是具有次線(xiàn)性的悔界,即隨著(zhù)交互次數的增加,算法的性能逼近最優(yōu)模型的性能。
免責聲明:本站詞條系由網(wǎng)友創(chuàng )建、編輯和維護,內容僅供參考。
以上內容均為商業(yè)內容展示,僅供參考,不具備專(zhuān)業(yè)問(wèn)題解決服務(wù),
如果您需要解決具體問(wèn)題(尤其在法律、醫學(xué)等領(lǐng)域),建議您咨詢(xún)相關(guān)領(lǐng)域的專(zhuān)業(yè)人士。
如您發(fā)現詞條內容涉嫌侵權,請通過(guò) 948026894@qq.com 與我們聯(lián)系進(jìn)行刪除處理!