# Stock-Trade

**Repository Path**: rockman0/Stock-Trade

## Basic Information

- **Project Name**: Stock-Trade
- **Description**: use PolicyGradient to deside stock trading;使用Policy Gradient进行量化交易决策 
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 1
- **Created**: 2021-08-05
- **Last Updated**: 2021-08-18

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# 使用Policy Gradient进行量化交易


## Trade_env:

	环境TradeEnv:

	1、通过QuandlEnvSrc更新读取getStock中的获取的数据，得到客观股票的状态

	2、Investor通过自己的买入卖出状态更新自己的时候的现金cash和仓位stock，并计算每次操作的净资产，作为回报reward

## Run：

	1、跑模型，获得对应动作action的observation；

	2、通过observation选择action：observation输入到网络中，输出softmax得到对应动作的概率，然后得到其动作的多项式分布，按照概率选取action
	Action作用在environment中，更新observation：如此处，相对应的买卖动作action施加后，会更新股民Investor的现金cash和仓位状态，从而得到新的observation_
	在b发生的同时，得到在每个observation下，对应action作用的reward，一一对应
	
	3、更新模型参数；

	利用一系列取得的reward,根据该环境，制定一个奖励函数Vt
	将在某observation选择该动作的概率的log 与其对应的reward 相乘得到每一步的loss值，即logπ(s_t,a_t )*reward_t；
	Loss值求和，得到总loss, 后向传播求导，更新模型