본문 바로가기

Artificial Intelligence/Reinforcement Learning

MAPS Multi-agent Reinforcement Learning-based Portfolio Management System 리뷰

MAPS Multi-agent Reinforcement Learning-based Portfolio Management System

Deutsche Bank 보고서에 따르면 주식 시장에서 자동화된 초단타 거래의 점유율이 미국에서 총 50%를 차지하고 있다고 합니다. 이러한 거래에는 알고리즘 트레이딩 시스템에 많은 거래들이 결정됩니다.

 

데이터 분석을 기반으로 decision-making과정을 quantitative trading 전략이라고 합니다. 양적 거래 전략은 두가지로 나누어집니다. 펀더멘탈 분석 방법과, 기술적 분석 방법으로나뉩니다. 펀더멘탈 분석은 회사의 재무제표, 경영, 경쟁적 우위, 경쟁자, 시장 등을 분석합니다.

기술적 분석은 과거 가격, 차트 및 거래량과 같은 기술적 신호를 기반으로 합니다. 전통적인 양적 전략은 전체 시장 역학의 일부만을 반영할 수 있습니다. 금융시장의 특정 측면만을 활용하여 변화하는 시장 상황에서 안정적인 수익을 유지하는 것은 결코 쉬운 일이 아닙니다.

 

 

딥러닝(DL)의 성공에 영감을 받아 연구자들은 여러 요소에서 새로운 수익성 있는 패턴을 찾기 위해 많은 노력을 기울였습니다.

주가의 움직임을 예측하기 위해 RNN과 hierarchical attention을 이용한 방법도 있었고 뉴스나 sentiment분석으로 패턴을 찾으려는 방법도 있었습니다.

또한 적대적 trainin과 기업관계 정보를 통합하여 robust한 예측을 하는 방법도 있었습니다.

강화학습 방법으로는 전자 거래에서 데이터 주도 학습의 특이성과 과제 financial signal representation and trading를 direct 강화학습에 대한 접근 주가 가격 예측과 관련된 연구들이 있었습니다.

하지만 위 방법들을 risk에 대해 고려하지 않고 단순 기대 수익률만 극대화 하는 방법을 제안했습니다.

 

본 논문에서는 포트폴리오를 다양하게 관리하면서 Agent 가 수익을 maximize하면서 다양하게 action을 할 수 있도록 diversification penalty 조건이 있는 Loss function을 구현한 논문입니다.

 

2. Problem Statement

2.1 Single-Agent reinforcement Learning

Markov decision process(MDP) 컨셉으로 Trading decisions이 Single-agent 에서 정의
이후 Single-agent case를 Multi-agent case로 확장 시킴
  • State s :
    - A set of current state of a stock.
    - Historical price movement, trading volume, financial statements, and sentiment scores
    - A sequence of closing prices of the past f days of a particular company.
  • Action a : 
    - A set of current state of a stock.
    - Historical price movement, trading volume, financial statements, and sentiment score
  • Reward r(s, a) : 
    - A reward based on an agent’s action at a current state.
    - A reward is calculated based on the current action and the next day return of a company.
  • Policy π(s, a) :
    - The trading strategy of an agent.
    - A policy π is essentially a probability distribution over actions given a state s.
    - The goal of an agent is to find the optimal policy which yields maximum cumulative rewards.

2.2 Multi-Agent Reinforcement Learning Extension

MDP를 multi-agent로 확장시키면 다음과 같습니다.

Action의 set은 K개의 agent에 대한 joint actio을 나타냅니다.
Reward는 r은 현재 상태 s와 모든 에이전트의 joint action에 따라 달라집니다.
결과적으로 에이전트의 수가 증가함에 따라 MARL에서 최적의 공동 정책을 찾는 것이 점점 더 어려워집니다. 또한 포트폴리오는 다양한 회사로 구성되며 일반적으로 각 회사에 대해 조치가 취해집니다. 모든 회사에 대한 모든 작업의 ​​조합을 고려하면 해당 작업 공간이 기하급수적으로 커집니다. 또한 MARL에서는 모든 에이전트가 함께 학습하고 결과적으로 다른 에이전트의 정책이 변경됨에 따라 에이전트의 최적 정책이 변경되기 때문에 에이전트의 최적 정책을 찾기도 어렵습니다.

따라서 차원의 저주 문제를 처리하는 적절한 방법을 해결하고 적절한 보상 구조를 설계하는 것이 MARL의 핵심 문제입니다.

  • Solving the curse of dimensionality and the nonstationarity problem

1. Agent i의 action 값을 계산할 때 다른 agent의 action은 무시됨

2. 각 agent는 두 개의 MLP 네트워크 매개변수 세트인 θ와 θ*를 유지

 

θ는 loss을 최소화하기 위해 gradient 단계를 수행할 때 사용

θ*는 θ의 복사본이며 다른 policy 변경으로 인한 비정상성 문제를 처리하기 위해 주기적으로 업데이트함

Training 중 agent는 또한 subsequent episodes 간의 상관관계를 줄이기 위해 experience replay memory 사용함

 

Training data set of size : N × T

Stored in a memory buffer of size : K × M

 

N : the number of companies,

T : the number of days

M : the size of the memory buffer of each agent

K : The number of agent

 

The memory buffer is a K ×M matrix where K is the number of agents.

Episode ϵ_i^m=  <s_c^t,a_(i,c)^t, r_(i,c)^t, s_c^(t+1)>

 

i : Index of an agent

m : Column index of the memory buffer

s_c^t : the current state of company c at time t

a_(i,c)^t : the action chosen by the e-greedy policy of agent i given current state s_c^t

r_(i,c)^t   : the immediate reward received by agent i

s_c^(t+1)  : the subsequent state of company c at time t + 1.

 

반응형
LIST