对于深度强化学习中的连续动作空间,以下哪种策略网络输出的是动作的概率分布?
对于深度强化学习中的连续动作空间,以下哪种策略网络输出的是动作的概率分布?
A.确定性策略网络
B.随机性策略网络
C.价值网络
D.以上都不是
正确答案:B
答案解析:随机性策略网络输出动作的概率分布。
Tag:AI人工智能知识竞赛 策略 网络
时间:2025-01-17 21:13:50