Pulse AI (YC S24)
エンタープライズグレードのドキュメント抽出エンジン
Pulse AIは、ドキュメントインテリジェンスにおける「開発者の選択」です。乱雑なPDFを確実に読み取る必要があるフィンテックまたはヘルステックアプリを構築している場合、レイアウト理解と厳密なスキーマに重点を置くPulseは、一般的なLLMラッパーよりも優れています。
好きなポイント
- ハイブリッドアーキテクチャ(OCR + VLM)は、純粋なLLMよりも複雑なレイアウトをうまく処理する
- セルフホストオプションにより、規制産業のデータ主権が保証される
- バウンディングボックス座標により、人間による検証が可能
注意点
- 主な焦点はエンタープライズ/APIであり、ドラッグアンドドロップの消費者向けUIがない
- セットアップには開発者の知識が必要(Python/TypeScript SDK)
- 大容量ティアの価格設定が不透明(営業担当者に連絡)
について
YC支援のインフラストラクチャツールであるPulse AIを使用して、複雑なドキュメントからの構造化データの抽出を自動化します。ネストされた表や手書きのメモで失敗する基本的なOCRツールとは異なり、Pulseはレイアウト分析とテキスト認識を分離するハイブリッドレイアウト-VLMアーキテクチャを採用しています。複数列の財務諸表、法的契約書、医療記録を厳密なJSONスキーマに正確に解析し、データに敏感な業界向けにセルフホスト(VPC/オンプレミス)ソリューションを提供します。
主な機能
- ✓ネストされた表とチャートをクリーンなJSONに抽出
- ✓GDPR/HIPAA準拠のためにプライベートVPCでモデルをセルフホスト
- ✓正確なフィールドマッピングのためにカスタムスキーマを定義
よくある質問
複雑なレイアウトの精度。 Textractは従来のOCRに依存していますが、PulseはOCRと**視覚言語モデル(VLM)**を組み合わせたハイブリッドモデルを使用しています。これにより、ドキュメント構造について「推論」し、従来のツールを破損させることが多いネストされた表、結合されたセル、複数列のレイアウトを正しく解釈できます。
はい、Pulseはサンドボックスティアを提供しています。チームに連絡する(または開発者ポータルからサインアップする)ことで、エンタープライズプランを契約する前に、限られた数のドキュメントで抽出機能をテストするための無料のAPIキーを受け取ることができます。
はい、Pulseは規制産業向けに設計されています。SOC 2 Type IIおよびISO 27001の認定を受けており、オンプレミスまたはプライベートVPC展開オプションを提供しています。つまり、エンタープライズセルフホストルートを選択した場合、データがインフラストラクチャから出ることはありません。