當前位置:首頁 > 科技文檔 > 自動化技術(shù) > 正文

基于序列建模的生成式強化學(xué)習(xí)研究綜述

計算機科學(xué) 頁數(shù): 16 2024-03-20
摘要: 強化學(xué)習(xí)是機器學(xué)習(xí)中關(guān)于如何學(xué)習(xí)決策的分支,是一個序列決策問題,通過與環(huán)境反復(fù)交互試錯找到最優(yōu)策略。強化學(xué)習(xí)可以與生成模型結(jié)合使用來優(yōu)化其性能,通常用于微調(diào)生成模型,提高其創(chuàng)建高質(zhì)量內(nèi)容的能力。強化學(xué)習(xí)過程也可以視為一個通用的序列建模問題,對任務(wù)軌跡上的分布進行建模,通過預(yù)訓(xùn)練生成模型產(chǎn)生一系列動作來獲取一系列的高回報。在對輸入信息進行建模的基礎(chǔ)上,生成式強化學(xué)習(xí)能夠更好地處理... (共16頁)

開通會員,享受整站包年服務(wù)