Brand LogoBrand Logo (Dark)
ホームAI エージェントツールキットGitHub 厳選エージェント投稿ブログ

カテゴリ

  • アート生成
  • オーディオ生成
  • 自動化ツール
  • チャットボット
  • コードツール
  • 金融ツール

カテゴリ

  • 大規模言語モデル
  • マーケティングツール
  • ノーコード
  • リサーチ & 検索
  • 動画 & アニメーション
  • 動画編集

GitHub ピック

  • DeerFlow — ByteDanceのオープンソースSuperAgent基盤

最新ブログ

  • OpenClaw対Composer 2 徹底比較!2026年最新AIアシスタントの実力は?
  • GoogleAIStudioとAnthropic Console どちらが最適?
  • スティッチ2.0 vs Lovable どちらが最強AIアプリビルダー?
  • 2026年最新!AIを活用した収益化戦略の実践ガイド
  • OpenClaw対MiniMax 機能・プライバシー・拡張性の違いを比較

最新ブログ

  • オープンクローVSキロクロー初心者におすすめはどれ?
  • オープンクローとキミクローの比較
  • 「GPT-5.4」と「Gemini 3.1 Pro」の比較
  • AIコンピューター革新が金融端末を揺るがす新時代
  • OpenClaw 最佳实践,5 个基本原则
LinkStartAI© 2026 LinkstartAI. 全著作権所有。
お問い合わせについて
  1. ホーム
  2. GitHub 厳選
  3. 源 Yuan3.0 Ultra
源 Yuan3.0 Ultra logo

源 Yuan3.0 Ultra

3分の1のパラメータを削って、むしろ賢くなる――世界でわずか3つしかない1兆級オープンソース・マルチモーダルLLMの一つ
1.2kPythonYuan 3.0 Model License Agreement
#大規模言語モデル#MoE#マルチモーダル#エンタープライズAI#RAG
#Text-to-SQL
#強化学習
#オープンソースモデル
#1兆パラメータ
#ドキュメント理解
#エージェント
#中国AI

概要

Yuan3.0 Ultra は、YuanLab.ai チームが 2026 年 3 月に正式公開した、1兆パラメータ級のオープンソース・マルチモーダル基盤LLMです。世界でも数少ない1兆級オープンソース・マルチモーダルモデルの一つであり、言語バックボーンには 103 層 Transformer から成る Mixture-of-Experts(MoE)アーキテクチャを採用しています。事前学習の初期パラメータ数は 1515B に達し、独自の「Layer-Adaptive Expert Pruning(LAEP)」によって 1010B まで圧縮、活性化パラメータは 68.8B、事前学習効率は 49% 向上しました。さらに、Localized Filtering-based Attention(LFA)と Reflection Inhibition Reward Mechanism(RIRM)を組み合わせることで、長文書理解と推論効率を強化しています。DeepSeek-V3、GPT-5.2、Kimi K2.5 などの先進モデルと比べても、ChatRAG(68.2%)、Docmatix(67.4%)、SummEval(62.8%)など企業向け主要評価で高水準を示しており、文書駆動型・データ駆動型のエンタープライズ Agent AI を支える中核エンジンとして有力です。

課題 vs イノベーション

✕従来の課題✓革新的ソリューション
従来の1兆パラメータ級 MoE モデル(初期の Switch Transformer など)は、事前学習時に冗長な専門家が大量に存在し、最大負荷と最小負荷の専門家間で計算負荷差が最大 500 倍に達するため、学習リソースの浪費が深刻だったLAEP アルゴリズム:事前学習の安定フェーズで低負荷専門家を層ごとに適応的に剪定し、さらに貪欲法ベースの専門家再配置でデバイス間負荷を均衡化。パラメータ数 33.3% 削減と効率 49% 向上を同時に実現
DeepSeek-R1 のような推論最適化モデルでは「過度な内省」が起こりやすく、正答に到達した後も不要な token を生成し続け、推論コストを押し上げる強化版 RIRM:RAPO の高速思考型強化学習フレームワーク上で内省ステップ数に報酬制約を導入し、学習精度を 16.33% 改善、出力 token 長を 14.38% 短縮。精度と効率を両立
多くのオープンソースモデルは、企業向け RAG、Text-to-SQL、表理解などの垂直領域で十分な性能を示せず、財務報告や承認フローといった複雑な文書業務へ直結しにくいLFA 局所フィルタ注意機構:従来の Softmax Attention よりも意味関係を精緻に捉え、長文書やクロスモーダル処理で優位性を発揮
Kimi K2.5 や GPT-5.2 などのクローズドまたは半オープンモデルは、オンプレミス展開や追加学習が難しく、企業データ保護の観点で懸念が残る全面的なオープン戦略:重み、技術報告書、SFT 微調整スクリプト、RL 学習スクリプトを公開し、コミュニティ再学習と企業向けカスタマイズを支援

アーキテクチャ深掘り

統合マルチモーダル構成
Yuan3.0 Ultra は、ビジョンエンコーダ、言語バックボーン、マルチモーダル整合モジュールから成る三段構成の統合アーキテクチャを採用し、視覚情報と言語情報をエンドツーエンドで協調的にモデリングします。ビジョンエンコーダは画像ピクセル列を視覚 token 表現へ変換し、整合モジュールは視覚空間と言語空間をつなぐ意味的ブリッジとして機能します。中核となる言語バックボーンは 103 層の深い MoE Transformer で構成され、最大 64K token のコンテキストを扱えるため、複数ページの企業文書や文書横断の知識検索を直接処理できます。
LAEP:層適応型専門家剪定
LAEP は Yuan3.0 Ultra における最重要のエンジニアリング革新であり、MoE 大規模モデルの事前学習段階に特化して設計されています。着眼点は、事前学習が「初期変動フェーズ」と「安定フェーズ」に分かれ、安定フェーズでは専門家ごとの token 負荷が著しく偏ることにあります。LAEP はこの安定フェーズで各層の専門家負荷を監視し、継続的に低負荷な冗長専門家を適応的に特定・削除することで、総パラメータ数を 1515B から 1010B へ圧縮します。その後、貪欲法による専門家再配置でデバイス間負荷を均衡化し、事前学習効率を全体で 49% 改善、実効計算利用率 92.8 TFLOP/GPU を達成します。
LFA:局所フィルタ型注意機構
LFA(Localized Filtering-based Attention)は、従来の Softmax Self-Attention を構造的に置き換える手法であり、注意計算に局所フィルタ処理を導入することで、局所的な意味関係をより精密に捉え、長系列で発生しやすい注意ノイズを抑制します。標準 Attention と比べ、表、コード、SQL などの構造化テキストやクロスモーダル整合タスクで高い精度を示し、Yuan3.0 Ultra が MMTab や Text-to-SQL で好成績を収める要因の一つとなっています。64K 長文脈では、局所制約によってグローバル注意の計算複雑度も抑えやすく、精度と効率を両立します。
RIRM:反省抑制報酬機構
RIRM(Reflection Inhibition Reward Mechanism)は、Yuan3.0 Ultra が RAPO フレームワークに基づく RL 後学習段階で導入した重要なアラインメント機構です。目的は、高速思考型 RL モデルに広く見られる「考えすぎ」問題の抑制にあります。仕組みとしては、反省ステップ数に明示的な報酬制約を設け、最初の正答に到達した後も反省を続ける行動にはペナルティを与え、難問では必要十分な推論の深さに報酬を与えます。これにより学習精度は 16.33% 向上しつつ、推論時の出力 token 長は 14.38% 短縮され、企業導入時の推論コスト削減に寄与します。
vLLM 推論と RLHF 学習基盤
Yuan3.0 Ultra のオープンソースリポジトリには、vllm と rlhf の 2 つの主要サブモジュールが含まれます。vllm サブモジュールは vLLM ベースの高スループット推論を提供し、bfloat16 と int4 量子化の両モードをサポート、マルチ GPU のテンソル並列展開で遅延を抑えます。rlhf サブモジュールは、SFT と RL の完全な学習スクリプトを提供し、企業が自社データでドメイン適応やアラインメント学習を行うための基盤として機能します。

デプロイガイド

1. リポジトリをクローンし、vLLM 推論依存関係をインストール

bash
1git clone https://github.com/Yuan-lab-LLM/Yuan3.0-Ultra.git\ncd Yuan3.0-Ultra/vllm\npip install -r requirements.txt

2. ModelScope または HuggingFace からモデル重みを取得(VRAM 節約のため int4 量子化版を推奨)

bash
1# HuggingFace\nhuggingface-cli download YuanLabAI/Yuan3.0-Ultra-int4 --local-dir ./models/Yuan3.0-Ultra-int4\n\n# または ModelScope\nmodelscope download --model YuanLabAI/Yuan3.0-Ultra-int4 --local_dir ./models/Yuan3.0-Ultra-int4

3. vLLM を使ってマルチ GPU 推論サービスを起動(例: A100 80G × 4)

bash
1python -m vllm.entrypoints.openai.api_server \\\n  --model ./models/Yuan3.0-Ultra-int4 \\\n  --tensor-parallel-size 4 \\\n  --max-model-len 32768 \\\n  --port 8000

4. OpenAI 互換 API で推論テストを実行

bash
1curl http://localhost:8000/v1/chat/completions \\\n  -H 'Content-Type: application/json' \\\n  -d '{\n    model: Yuan3.0-Ultra-int4,\n    messages: [{role: user, content: この財務報告書の異常値を分析してください。}],\n    max_tokens: 2048\n  }'

5. 任意:rlhf サブモジュールを用いて企業内データで SFT 微調整を実施

bash
1cd ../rlhf\nbash scripts/run_sft.sh \\\n  --model_path ../models/Yuan3.0-Ultra-int4 \\\n  --data_path ./data/your_enterprise_dataset.json \\\n  --output_dir ./output/yuan_sft_finetuned

導入事例

コアシーン対象読者ソリューション成果
企業向けナレッジベース RAG QA システム金融、法務、医療など知識集約型企業の AI プラットフォームエンジニアYuan3.0 Ultra の ChatRAG 68.2% の高い検索理解性能を活用し、社内文書や過去事例を正確に参照できる対話型ナレッジ QA を構築知識検索精度は GPT-4o や Claude Opus 4.6 を上回り、問い合わせ対応コストを削減しつつ、監査や意思決定支援にも有効
マルチモーダル財務報告の自動解析大企業の財務部門および BI データチームYuan3.0 Ultra の LFA と MMTab 62.3% の表理解性能を活用し、図表混在の四半期報告書、年次報告書、承認書類を自動解析して重要数値や異常指標を抽出従来数時間を要したレビューを数分レベルへ短縮し、分析工数と人的コストを大幅に削減
自然言語駆動のデータベース照会基盤SQL を書けない業務アナリストや運用担当者Yuan3.0 Ultra を Text-to-SQL エンジンとして導入し、自然言語から企業データウェアハウスに問い合わせ、SQL を自動生成・実行技術的障壁を下げ、現場部門がセルフサービスでリアルタイム照会とレポート作成を実現し、データ駆動意思決定を加速

制限事項と注意点

制限事項と注意点
  • ハードウェア要件が極めて高い:16bit フル精度版では約 2TB の VRAM が必要で、A100 80G を約 25 枚相当要する。int4 量子化版でも最低 4〜8 枚の高性能 GPU が必要となり、多くの中小企業には自前運用のハードルが高い
  • 推論遅延が高め:活性化パラメータ 68.8B は 7B〜70B 級モデルより単発推論遅延が大きく、リアルタイム対話用途には不向きで、バッチ処理や非同期業務向き
  • 汎用推論は最上位ではない:評価では BFCL V3 のツール呼び出しで Gemini 3.1 Pro や Claude Opus 4.6 に及ばず、MATH-500 の数理推論でも推論特化モデルにやや劣る
  • マルチターンのツール呼び出しに弱み:BFCL V3 の Multi-turn 文脈維持は 45.3% にとどまり、複雑な多段 Agent ワークフローでは文脈喪失や指示のブレが起きうる
  • コミュニティ生態系は立ち上がり段階:2026 年 3 月に公開されたばかりで、周辺ツールやサードパーティ統合、技術議論は LLaMA や Qwen 系列ほど充実していない
  • ライセンス準拠リスク:標準的な Apache 2.0 や MIT ではなく独自の「Yuan 3.0 Model License Agreement」を採用しており、商用利用前に派生物配布や海外展開に関する条項の確認が必要

よくある質問

LAEP による剪定は、特定分野での専門性を損なう可能性がありますか。また、削減された 33% のパラメータは復元できますか。▾
これはコミュニティで最も議論されている構造上の論点です。LAEP の剪定は事前学習の安定フェーズで行われ、長期的に低負荷のまま推移した専門家を対象とします。これらは実計算への寄与が極めて小さいため、機能的というより構造的な冗長性とみなされます。したがって、無作為な切り捨てではなく、根拠に基づく構造圧縮です。評価結果では、圧縮後の 1010B モデルが企業向け評価で初期チェックポイントを上回っており、低負荷専門家の寄与が限定的だったことを示しています。なお、剪定は不可逆の構造変更であるため直接復元はできませんが、完全な学習スクリプトが公開されているため、1010B ベースから SFT を進めてドメイン能力を補強することは可能です。
Yuan3.0 Ultra は ChatRAG で 68.2% を記録し、Claude Opus 4.6 や GPT-5.2 を大きく上回っています。この結果にデータ汚染や自己評価バイアスの懸念はありますか。▾
これは Reddit や Hacker News でも頻繁に議論されている論点です。ChatRAG は NVIDIA が公開した標準的な RAG 評価セットで、10 の多様なサブタスクから構成され、データ構成と評価方法も公開されています。そのため、恣意的な自家バイアスを入れ込む余地は比較的小さいと考えられます。Yuan3.0 Ultra は 10 タスク中 9 タスクで首位を獲得し、とくに難度の高い長文脈検索で優位性を示しました。これは 64K コンテキストと LFA の設計と整合的です。ただし、技術報告はチーム自身による公開であり、第三者による独立再現はまだ限定的であるため、優位幅については外部検証が揃うまで慎重に見るべきです。
企業向け RAG の実運用では、Yuan3.0 Ultra と DeepSeek-V3 のどちらがより適していますか。▾
ベンチマーク上では、Yuan3.0 Ultra は ChatRAG と SummEval で DeepSeek-V3 を上回っており、RAG 性能では優位です。ただし実運用では複数の観点が重要です。1つ目は推論コストで、DeepSeek-V3 の活性化パラメータは約 37B に対し Yuan3.0 Ultra は 68.8B で、同一ハードウェアではスループットが下がりやすい。2つ目はエコシステム成熟度で、DeepSeek-V3 は vLLM 最適化や量子化、LangChain と LlamaIndex 連携がより成熟している。3つ目はライセンスで、DeepSeek-V3 は MIT、Yuan3.0 Ultra は独自ライセンスのため、海外展開時の法務確認が必要です。精度重視で計算資源に余裕がある企業は Yuan3.0 Ultra、コストと周辺生態系を重視するなら DeepSeek-V3 が現実的です。
RIRM は「考えすぎの抑制」と「複雑な推論能力の維持」をどのように両立しますか。難問で推論連鎖を早期に打ち切るリスクはありませんか。▾
鍵は RIRM の報酬設計にあります。すべての反省行動を一律に罰するのではなく、「すでに正答に達した後も反省を続ける」行動だけを抑制し、難問で必要な深い推論を行う場合は正の報酬を与えます。そのため、モデルがまだ十分な確信に達していない限り、推論連鎖は継続できます。ただし潜在的なリスクとして、モデル自身の確信判断は学習に基づくソフトな判定であり、OOD 問題や対抗的入力では「正しいと思い込んで誤る」早期打ち切りが起こりえます。数理や科学推論では堅調でも、オープンエンドな問題やドメイン移行では本番前に SFT で閾値調整するのが望ましいです。
int4 量子化版は 16bit 版と比べてどれほど精度が落ちますか。企業の重要業務でも安全に使えますか。▾
Yuan3.0 Ultra には BF16 と int4 の両版があり、int4 により VRAM 要件はおおよそ 2TB から 500GB 級まで圧縮されます。一般に 1000B 超級モデルでは、PTQ 型 int4 量子化による精度低下は比較的小さく、ベンチマーク上では 1〜3% 程度に収まるケースが多いとされます。ただし、技術報告では 16bit と int4 の直接比較が十分には示されておらず、ここは情報の空白です。金融コンプライアンスや医療文書解析のような重要用途では、汎用ベンチマークの推測に頼らず、対象業務データで A/B テストを行ってから採用判断すべきです。
Yuan3.0 Ultra は Text-to-SQL の Spider で高い一方、BIRD では Kimi K2.5 に劣ります。なぜですか。▾
Spider 1.0 と BIRD は設計思想が大きく異なります。Spider は SQL 構文の正確性や標準的なスキーマ対応を重視する一方、BIRD は実運用に近いノイズ、曖昧列名、多段推論を含みます。Yuan3.0 Ultra が Spider で強いのは、SQL 生成や Schema Linking が強力であることを示します。一方、BIRD で Kimi K2.5 を下回るのは、ノイズや曖昧性への頑健性がやや弱い可能性を示唆します。これは企業 DB での実導入時に、列名規約や注釈の整備といったデータガバナンスが結果を大きく左右することを意味します。
Yuan 3.0 の独自ライセンスは Apache 2.0 や MIT と何が違いますか。商用利用でどのような法的リスクがありますか。▾
Yuan 3.0 Model License Agreement は商用利用を認めており、事前承認が不要という点では一部の研究用途限定ライセンスより使いやすいです。ただし Apache 2.0 や MIT と比べると、いくつか重要な制約があります。たとえば「国家や社会に害を及ぼしうる用途への利用禁止」のような広義な条項は、法域によって解釈が不安定になり得ます。また、派生モデル配布時の原ライセンス表示義務や、安全評価・登録未了サービスへの制限は、海外展開時に現地法と衝突する可能性があります。EU や米国市場での展開を視野に入れる企業は、Apache 2.0 との差分を条文単位で精査する必要があります。
企業 Agent のツール呼び出し用途では、Yuan3.0 Ultra と Qwen3-235B-A22B をどう比較できますか。設計上の本質的な違いは何ですか。▾
BFCL V3 では Qwen3-235B-A22B が 68.0%、Yuan3.0 Ultra が 67.8% と僅差です。ただし中身は大きく異なります。Qwen3 は Relevance が強く、どのツールを呼ぶべきかの選択精度で優位です。一方、Yuan3.0 Ultra は Irrelevance Detection が強く、不要なツール呼び出しを拒否する安全性で優れます。構造面では Qwen3 の活性化パラメータは 22B と軽く、高並列に向きます。対して Yuan3.0 Ultra は 64K 文脈を持ち、長文書ベースの Agent 処理に有利です。高並列重視なら Qwen3、長文書処理や厳格なツール拒否が重要なら Yuan3.0 Ultra が向きます。
GitHubで見る

プロジェクト指標

Star数1.2 k
言語Python
ライセンスYuan 3.0 Model License Agreement
デプロイ難易度難しい

Table of Contents

  1. 01概要
  2. 02課題 vs イノベーション
  3. 03アーキテクチャ深掘り
  4. 04デプロイガイド
  5. 05導入事例
  6. 06制限事項と注意点
  7. 07よくある質問

関連プロジェクト

DeerFlow — ByteDanceのオープンソースSuperAgent基盤
DeerFlow — ByteDanceのオープンソースSuperAgent基盤
26.1 k·Python
gstack
gstack
0·TypeScript
Marketing for Founders
Marketing for Founders
2.2 k·Markdown
OpenMAIC
OpenMAIC
0·TypeScript