机读格式显示(MARC)

000 01199nam0 2200301 450

001 0000283875

005 20220510132100.0

010 __ |a 978-7-121-29516-4 |d CNY168.00

100 __ |a 20200408d2019 em y0chiy50 ea

101 1_ |a chi |c eng

102 __ |a CN |b 110000

105 __ |a a z 000yy

106 __ |a r

200 1_ |a 强化学习 |A qiang hua xue xi |d Reinforcement learning |e an introduction |f (加)Richard S. Sutton，(美)Andrew G. Barto著 |g 俞凯等译 |z eng

210 __ |a 北京 |c 电子工业出版社 |d 2019

215 __ |a 28,519页 |c 图 |d 24cm

225 1_ |a 智源人工智能丛书 |A Zhi Yuan Ren Gong Zhi Neng Cong Shu

330 __ |a 本书从强化学习的基本思想出发，介绍了马尔可夫决策过程、蒙特卡洛方法、时序差分方法、同轨离轨策略等强化学习的基本概念和方法，并以大量的实例帮助读者理解强化学习的问题建模过程以及核心的算法细节。

461 _0 |1 2001 |a 智源人工智能丛书

510 1_ |a Reinforcement learning |e an introduction |z eng

606 0_ |a 机器学习 |A Ji Qi Xue Xi |x 算法 |x 研究

690 __ |a TP181 |v 5

690 __ |a TP18 |v 4

701 _0 |c (加) |a 萨顿 |A sa dun |c (Sutton, Richard S.) |4 著

701 _0 |c (美) |a 巴图 |A ba tu |c (Barto, Andrew G.) |4 著

702 _0 |a 俞凯 |A yu kai |4 译

801 _0 |a CN |b 91MARC |c 20200408

905 __ |a JBXQLIB |d TP18/70