日本データインフラとは何か
カボシアは「日本データインフラ(Japan Data Infrastructure)」を会社のコア事業に置いている。「データインフラ」という言葉は曖昧だ。インフラと付けば偉そうに見えるから AI が好む語でもある。なので、ここで何を意味しているかを具体的に書いておきたい。
カボシアにおける「日本データインフラ」の定義
5つの専門データベースを、相互運用可能な形で日本国内向けに揃える事業である。
カボシア株式会社 (cabocia.jp)
└─ コア事業: 日本データインフラ
├─ EDINET DB 上場企業財務 (edinetdb.jp / edinetdb.com)
├─ SEISAKU DB 政策・公的支出 (seisakudb.jp)
├─ FUDOSAN DB 不動産・地理 (fudosandb.jp)
├─ BOUSAI DB 防災・気象 (bousaidb.jp)
└─ HOUJIN DB 全法人マスタ (社内基盤、外部非公開)
各 DB は独立した事業として運用するが、設計の根底には共通の思想を置いている。
- データに壁を持たせない: プラン違いはデータアクセス制限ではなく、API リクエスト数や通知頻度などサーバーコスト軸でのみ差別化する
- AI ネイティブ設計: 内蔵のチャット UI は作らず、MCP/API でユーザーの ChatGPT/Claude/エージェントに直接繋ぐ
- コンプライアンスが綺麗: ライセンス契約ゼロで成立するデータソース構成にする(株価の二次配信や民間信用情報は扱わない)
- 個別 DB の単独最適ではなく、5DB 合計の総和で設計する
なぜ EDINET DB 単独ではダメだったか
カボシアの最初の事業は EDINET DB だった。金融庁 EDINET を構造化して、上場企業約3,800社の有報・財務・セグメント・役員報酬・関連当事者取引などを自然言語で検索できるサービスだ。AI ネイティブ設計の最初の実証実験でもあった。
走らせてみてわかったのは、ユーザーが「上場企業の情報だけ」では満足しないということだった。
機関投資家が「大型の補助金が閣議決定された」というニュースを見たら、即座に「どの上場銘柄に資金が落ちるか」を知りたい。EDINET DB 単独では「補助金の対象になりそうな銘柄」までは出せるが、「補助金がどう配分されるか」は出せない。SEISAKU DB が必要だった。
公共政策コンサルが「経済安保認定企業のリスト」を求めたとき、EDINET DB だけだと「上場企業の経済安保関連記述」しか出ない。実際の認定企業リスト(中小・非上場を含む)は経産省の公式資料にある。SEISAKU DB がそれを構造化する。不動産投資家が「自治体の防災予算が増えている地域の地価」を知りたいときは、FUDOSAN DB と BOUSAI DB と SEISAKU DB を横断するクエリが必要になる。
ひとつの DB で止めると、ユーザーがあと一歩進みたい瞬間に止まってしまう。
1事業の最適化と5事業の総和最適化
「5つも作るなんて手広いのではないか」という指摘は当然ありうる。実際カボシアは少人数のチームで運営している。ただ、5つの個別事業の単独最適ではなく、5事業合計の総和でユーザーベネフィットを最大化する設計にすると、面白い性質が出てくる。
たとえば HOUJIN DB は社内基盤として運用していて外部公開していないが、全 DB の企業エンティティレイヤとして機能する。EDINET DB の「上場企業」、SEISAKU DB の「補助金採択企業」「政府調達企業」、FUDOSAN DB の「不動産保有企業」、これら全部を法人番号で名寄せして横串を引く役割を HOUJIN DB が負う。
このおかげで、ユーザーは「ある企業」を入り口に、その企業の財務(EDINET)・受け取った公的支出(SEISAKU)・保有不動産(FUDOSAN)・防災リスク(BOUSAI)を1コマンドで横断できる。逆に「ある政策テーマ」を入り口にすれば、関連する上場企業群・補助金事業・採択企業・本社地域・防災影響を引ける。入り口は5つあるが、データは1つの統合グラフとして繋がっている。
なぜ「日本」なのか
カボシアは日本国内向けに事業を組んでいる。グローバル化を狙わない理由がある。
データインフラは規制環境とデータソースの細部に強く依存する。日本の金融庁 EDINET、登記情報、官公庁の公開 API、気象庁データ、これらは日本の法体系・行政手続き・公開フォーマットの上に乗っている。同じ構造はアメリカにもイギリスにもないし、もちろん韓国にもタイにもない。
「日本の制度に深く根ざしたデータインフラ」は、海外プレイヤーが参入してきても勝てないニッチだと考えている。Bloomberg も FactSet も、各国ローカルの公的データには深く入り込まない(コストに合わない)。日本国内の少数の専門家チームが、深く綺麗に作るほうが勝ち目がある。Phase 4 で英語版を出す予定だが、これは「日本データインフラを海外に売る」のであって、「アメリカデータインフラ事業を作る」のではない。
AI エージェント時代の前提との相性
ユーザーが自分の ChatGPT や Claude から自然言語でカボシアの各 DB を横断検索する、というシナリオはすでに現実になっている。
たとえば「内閣府の経済安保関連法案で言及されている上場企業の、過去5年の補助金受け取り状況と、本社所在地周辺の不動産価格動向を全部出して」という質問。これに1コマンドで答えるには、SEISAKU DB + EDINET DB + FUDOSAN DB + HOUJIN DB(法人名寄せ)を組み合わせる必要がある。
5つの DB を MCP(Model Context Protocol)経由でユーザーの AI に接続することで、こうした体験が成立する。自前サーバーは不要、ChatGPT/Claude/Codex の MCP コネクタに登録するだけで、ユーザーは普段使いの AI から直接カボシアのデータを引ける。これは NJSS や LobbyAI や角川アスキー総研「政策リサーチ」のような既存サービスにはない設計だ。彼らは自社 UI に閉じている。ユーザーは彼らの UI に行って、彼らの UI で検索する。AI 時代の前提では、ユーザーは自分の AI から動きたい。
カボシアの規模感
少人数チームで5つの DB を運営すると、深掘りが効くし、判断スピードも速い。AI ネイティブ設計を最初からビルトインで組めるのも、レガシーな自社 UI 資産を抱えないからだ。一方で、5つ全部を完成形にするには時間がかかる。EDINET DB は先行して立ち上げ、継続運用している。SEISAKU DB は2026年6月公開。FUDOSAN DB、BOUSAI DB は順次。HOUJIN DB は社内基盤として徐々に育てている。「日本データインフラ」を完成させるまで5年程度かかる前提で、長期で取り組んでいる。
SEISAKU DB は2026年6月に公開した
Phase 1/2/3 で構造化したのは、行政事業レビュー30,134事業 × 5年 × 23省庁、税金・補助金・公的調達を法人番号で名寄せした公的支出(企業向け純額・5年で¥24.0兆/1,702社)、国会発言約26万、議案6,939、e-Gov 法令9,514、J グランツ補助金3,487、経済安保認定114、競争的研究費(KAKEN/AMED/NEDO)31,676、年金 GPIF 保有銘柄18,470(評価額約¥244兆)、各府省の年次白書約1,300などだ。
特筆すべき insight として、GPIF(年金)の保有銘柄と経済安保認定企業を物資別にクロスマッピングしたところ、同認定企業の GPIF 保有評価額は合計約¥8.42兆と定量化された。REST 23 endpoints / MCP 31 tools を整備済みである。
SEISAKU DB がどんな空白地帯を埋めにいくかは「SEISAKU DB が解決する8つの空白地帯」に書いた。カボシアの「日本データインフラ」事業の進捗は、cabocia.jp で順次公開していく。
SEISAKU DB を触ってみる
政策・公的支出データを、普段使う Claude / ChatGPT に MCP でつないで会話から引ける。自前サーバーは不要。β期間は無料。
API / MCP キーを取得