2단계 이산화 모델링 패러다임
연속 OHLCV를 계층 이산 토큰으로 양자화한 뒤 토큰 시퀀스에서 자회귀 사전학습을 수행해 시장 시계열의 ‘어휘/문법’을 학습한다.
Kronos는 금융 캔들 시퀀스를 ‘모델링 가능한 언어’로 본다. 연속·다차원 OHLCV를 전용 토크나이저로 계층적 이산 토큰으로 양자화한 뒤, 디코더형 자회귀 Transformer를 토큰 시퀀스로 사전학습해 예측·생성·다운스트림 퀀트 작업을 한 표현 공간으로 묶는다. 가중치와 토크나이저는 Hugging Face에서 바로 불러오며, Predictor가 정규화·절단·샘플링·역변환을 재사용 가능한 파이프라인으로 제공한다. 특정 자산군/빈도에 맞추려면 Qlib로 데이터·백테스트를 구성하고 torchrun으로 토크나이저와 프리딕터 2단계 파인튜닝을 돌려 회귀 가능한 평가 루프를 만든다.
| ✕기존 문제점 | ✓혁신적 솔루션 |
|---|---|
| 금융 시계열을 범용 모델에 그대로 넣으면 노이즈·스케일 변화에 취약하고, 시장/빈도 변경 시 분포 가정이 빠르게 붕괴한다. | Kronos는 ‘이산 토크나이저→자회귀 사전학습’ 2단계로 연속 OHLCV를 토큰 언어로 바꿔 표현을 안정화하고 전이성을 높인다. |
| 분할·정규화·샘플링·평가가 스크립트에 흩어져 재현이 어렵고 팀 내 지식 재사용이 힘들다. | Predictor와 파인튜닝 스크립트로 학습/추론/평가 경로를 파이프라인화해 A/B 비교와 회귀 테스트를 쉽게 만든다. |
1git clone https://github.com/shiyu-coder/Kronos.git && cd Kronos && python -m venv .venv && . .venv/bin/activate1pip install -U pip && pip install -r requirements.txt1python examples/prediction_example.py1pip install pyqlib && python finetune/qlib_data_preprocess.py1torchrun --standalone --nproc_per_node=2 finetune/train_tokenizer.py && torchrun --standalone --nproc_per_node=2 finetune/train_predictor.py| 핵심 시나리오 | 대상 고객 | 솔루션 | 최종 결과 |
|---|---|---|---|
| 퀀트 리서치 예측 베이스라인 | 리서처 | 다자산 캔들을 토큰 시퀀스로 모델링해 예측 비교 | 재현 가능한 지표로 빠르게 반복한다 |
| 시장 간 표현학습·전이 | 멀티 마켓 팀 | 통일 토크나이저로 빈도·스케일 정렬 | 드리프트 대응 비용을 줄이고 전이를 운영 프로세스로 만든다 |
| 신호 생성과 백테스트 통합 | 전략 엔지니어링 | 예측을 거래 신호로 변환해 백테스트 연결 | 학습→추론→백테스트 폐루프를 회귀/버전 비교로 운영한다 |
