教小白精通编程

面向小白的编程教学博客

Python程序设计基础与实践-1.3数的表示

    "Python Programming Basic and practice-Representation of Number"

教小白精通编程系列之“Python程序设计基础与实践”.未经作者同意,不得转载,违者将追究法律责任! 欢迎关注 微博:教小白精编程 博客:https://xuepro.xcguan.net 1.3 数Number的表示 在python程序中,数的表示方式有多种,如果你熟悉二进制、十六进制,可以直接忽略本段内容。 日常生活中,通常采用的是“十进制(Decimal)”,即用10个不同...

Python程序设计基础与实践-1.2安装和解释器

    "Python Programming Basic and practice"

教小白精通编程系列之“Python程序设计基础与实践”.未经作者同意,不得转载,违者将追究法律责任! 欢迎关注 微博:教小白精编程 博客:https://xuepro.xcguan.net 安装Python开发环境 安装python开发环境通常有2种下方式: 原生安装 只安装相应平台最基本的Python解释器,就可以编写程序Python程序了。可在https://www.pyt...

策略梯度Policy Gradient

策略梯度Policy Gradient

策略梯度Policy Gradient The general case is that when we have an expression of the form \(E_{x \sim p(x \mid \theta)} [f(x)]\) - i.e. the expectation of some scalar valued score function \(f(x)\) unde...

Entropy, cross Entropy and KL Divergence

Entropy, cross Entropy and KL Divergence

Information entropy is defined as the average amount of information produced by a stochastic source of data. (熵是随机数据的平均信息量), 一个随机事件发生的概率越大,其信息量越少,反之,一个事件发生的概率越小,则一旦发生其信息量就很大,比如你说“一个人最终会死亡”,因为这是一个确定...

Python-迭代器(iterator)、可迭代的(iterable)、生成器(generator)

iterator,iterable,generator

文章来源:Python技术进阶——迭代器、可迭代对象、生成器 容器(container)、可迭代对象(iterable)、迭代器(iterator)、生成器(generator)的关系如下图: list、set、tuple、dict都是容器 容器通常是一个可迭代对象 但凡可以返回一个迭代器的对象,都称之为可迭代对象 迭代器是一个可迭代对象,但反之不一定 ...

AlphaGo algorithm

AlphaGo algorithm

AlphaGo_IJCAI.pdf 深度解读AlphaGo Google DeepMind’s AlphaGo: How it works AlphaGo-lecture AlphaGo and Monte Carlo Tree Search 解密Google Deepmind AlphaGo围棋算法 [AlphaGo Zero: Learning ...

蒙特卡罗方法Monte Carlo methods

Monte Carlo methodsg

Previously, we discussed markov decision processes, and algorithms to find the optimal action-value function \(q^*(s,a)\) and \(v^*(s)\). We used policy iteration and value iteration to solve for ...

动态规划Dynamic Programming

Dynamic Programming

Dynamic Programming Policy Evaluation (Prediction) For a given policy \(\pi\) compute the state–value function \(V^{\pi}\) \[\begin{equation}\begin{split} V^{\pi}(s) = E_{\pi}[r_{t+1}+ \gamma V^{...

马尔可夫决策过程MDP

MDP

A stochastic process is an indexed collection of random variables \({X_t}\). e.g., time series of weekly demands for a product A stochastic process \(X_t\) is said to be Markovian if and only if ...

控制台游戏框架,以 “射击游戏”为例

shhoter console game program

控制台游戏console game 现代计算机的屏幕或屏幕区域是由许多很小的“像素点”构成的,每个像素点可显示很多种颜色,这种计算机屏幕称为彩色显示器。在这种彩色显示器上可以显示各种色彩丰富的图形图像,比如我们的操作系统现在都是基于这种彩色图像构成各种具体图像元素的所谓“图形用户界面GUI”操作系统,这种图形系统上可以借助于图形库自由地在任何位置绘制各种图形图像。而早期的计算机只能“从上到...