二段階の離散化パラダイム
連続OHLCVを階層トークンへ量子化し、トークン列で自回帰事前学習する。市場系列に“語彙と文法”を与える設計。
Kronos は金融K線系列を“学習可能な言語”として扱う。まず専用トークナイザで連続・多次元のOHLCVを階層的な離散トークンへ量子化し、次にデコーダ型の自回帰Transformerをトークン列で事前学習して、予測・生成・下流タスクを同じ表現に統合する。重みとTokenizerは Hugging Face から取得でき、Predictorが正規化、切り詰め、サンプリング、逆変換をパイプライン化する。資産や頻度に合わせるなら Qlib でデータと回測を整え、torchrunでtokenizer/predictorの二段階微調整を回し、回帰可能な評価ループを作れる。
| ✕従来の課題 | ✓革新的ソリューション |
|---|---|
| 金融時系列を汎用モデルへそのまま入力すると、ノイズとスケール差で破綻しやすく、市場や頻度が変わると分布仮定がすぐ崩れる。 | Kronos は「離散トークナイザ→自回帰事前学習」の二段でOHLCVをトークン言語へ変換し、表現を安定化して移植性を高める。 |
| 分割や正規化、サンプリング、評価がスクリプトに散らばり、再現性が低く、知見がチームに蓄積しづらい。 | Predictorと微調整スクリプトで実験経路をパイプライン化し、A/B比較と回帰検証を回しやすくする。 |
1git clone https://github.com/shiyu-coder/Kronos.git && cd Kronos && python -m venv .venv && . .venv/bin/activate1pip install -U pip && pip install -r requirements.txt1python examples/prediction_example.py1pip install pyqlib && python finetune/qlib_data_preprocess.py1torchrun --standalone --nproc_per_node=2 finetune/train_tokenizer.py && torchrun --standalone --nproc_per_node=2 finetune/train_predictor.py| コアシーン | 対象読者 | ソリューション | 成果 |
|---|---|---|---|
| 量化研究の予測ベースライン | 研究者 | 多資産K線をトークン系列として予測比較 | 同一指標で反復でき、実験の再現性が上がる |
| 市場間の表現学習と移植 | 複数市場チーム | 統一トークナイザで頻度と尺度を揃える | ドリフト対応コストを下げ、移植を工程化できる |
| シグナル生成と回測の統合 | 実装チーム | 予測からシグナルを作り回測へ接続 | 学習→推論→回測の閉ループで回帰と比較がしやすい |
