其他人还搜了
图书知识聚合
在2本书中找到答案
- 章节19.1.2 off-policy 与 on-policy说 Q Learning 是一种 off-policy 算法,是指它在更新 Q 函数时使用的动作(max_action)可能并不会被智能体用到。又称 SARSA 是一种 on-policy 方法,是指它在更新 Q 函数时使用的动作(new_action)一定会被智能体所采用。这也是 on-policy 方法和 off-policy 方法的主要区别。
- 章节词汇表Machine Learning:机器学习,这是一种人工智能,这种技术可以让计算机具有自我学习的能力而无须事先进行明确的编程,是提供先进的预测性数据分析能力和维护保养能力的关键技术。Machine to Machine(M2M):机器对机器,在服务供应商的世界中,将设备与设备而不是与手机互联的通信系统。Mobile Network Operator:移动网络运营商,也被称作无线服务供应商、无线运营商、蜂窝网络公司或者移动网络提供商,为客户提供无线语音和数据通信服务,或者控制所有可用于销售和提供这种服务的基本元素。Mobile Virtual Network Operator(MVNO):移动虚拟网络运营商,也被称为移动其他许可运营商(MOLO),没有自己的无线网络基础设施,依靠租用相关设施来为其客户提供无线通信服务的运营商。National Institute of St