对于深度强化学习中的连续动作空间,以下哪种策略网络输出的是动作的概率分布?



对于深度强化学习中的连续动作空间,以下哪种策略网络输出的是动作的概率分布?

A.确定性策略网络

B.随机性策略网络

C.价值网络

D.以上都不是

正确答案:B

答案解析:随机性策略网络输出动作的概率分布。


Tag:AI人工智能知识竞赛 策略 网络 时间:2025-01-17 21:13:50