ルール駆動で回るスクレイピングからフィード生成まで
Clawfeedは各ソースをルールと実行パイプラインとして扱い、入力をページやエンドポイント、出力を標準RSS/Atom項に揃えます。狙いはスクレイピングの不確実性をルール層に閉じ込め、下流は安定したfeedを消費するだけにすることです。パイプラインには抽出、正規化、重複排除、並び替えが入りやすく、更新のたびに同じ内容が再出力されるノイズを抑えます。ルール駆動は版管理とロールバックがしやすく、上流改修への追従を安全にします。
| ✕従来の課題 | ✓革新的ソリューション |
|---|---|
| RSSを持たない情報源が多く、通知や手動巡回に頼ると遅延と追跡性の欠如、アーカイブの難しさが積み上がります。 | Clawfeed は抽出からフィード生成までを工程化し、ルール駆動の取得、更新制御、キャッシュ可能な出力で運用可能なフィードを作ります。 |
| リーダーは消費には強い一方、認証、キャッシュ、フィルタ、安定更新を伴うフィード生成は不得意です。 | 自前ホストと組み合わせを重視し、RSS/Atom出力は任意のリーダーで消費でき、隔離やレート制御、アラートも設計できます。 |
1git clone https://github.com/kevinho/clawfeed.git && cd clawfeed && npm i1cp .env.example .env && sed -i '' 's/REFRESH_INTERVAL=.*/REFRESH_INTERVAL=300/' .env1npm run dev1docker build -t clawfeed:latest . && docker run -d --name clawfeed -p 1200:1200 clawfeed:latest| コアシーン | 対象読者 | ソリューション | 成果 |
|---|---|---|---|
| 競合・プロダクト更新の監視 | 運用/PM | 更新ページや告知ページをRSS化してアラート連携 | 変化を早期に捉えて履歴管理できる |
| 社内収集とアーカイブ | 情シス/セキュリティ | 自前ホストで外部更新をRSSに標準化しアクセス制御 | 外部依存を下げ追跡性を上げる |
| データ基盤の更新シグナル | データエンジニア | RSS/Atomを統一の変更シグナルとしてETLへ投入 | スクレイパ保守を減らし安定性を上げる |