第4回: データ層の役割と連携 - 連携層へデータを供給する土台

連載「地理空間データ連携基盤」、第4回です。

前回は、「連携層」がデータを収集・変換・配信し、誰もが使える形にする仕組みとメリットについて解説しました。

今回は、「データ層」に焦点を当てます。元データの置き場所としての役割、利用できるシステムの紹介、そして継続的なデータ提供のコツについて見ていきましょう。

データ層の役割:連携層へのデータ供給の「土台」

地理空間データ連携基盤のアーキテクチャは、「データ層」「連携層」「アプリケーション層」の3層構造です。

この中で「データ層」は、「連携層」がデータを取得しに行く すべてのシステムやサーバー を指します。

データ層に求められる基本的な機能

データ層を構成するシステムには、以下の役割が求められます。

  1. 連携層が、データをダウンロードできること
    連携層がインターネット経由でデータにアクセスし、取得できること。決まったURLからダウンロードするか、APIを通じてデータを取得します。最新のファイルが常に同じURLで取得できると、運用の手間が大きく減ります。
  2. メタデータ(更新日時、作成者など)が管理・表示できること
    データの信頼性や鮮度を判断するために、いつ誰が作成・更新したデータなのかといったメタ情報(データに関するデータ)が管理され、確認できることが望ましいです。

データ層が持つとさらに便利になる機能

基本的な機能に加えて、以下の機能があるとさらに便利です。

  • データのチェック機能
    データが正しい形式であるか(例:CSVの列数がおかしくないか)、必須項目が入力されているか、値の範囲が適切かなどを自動的にチェックする機能。これにより、運用の手間、エラーを減らすことができます。
  • バージョン管理・差分管理
    データを過去のバージョンに戻したり、変更点(差分)を確認したりできる機能。データの変更経緯が追跡可能になり、万が一の際の原因究明や復旧が容易になります。
  • データ更新通知
    データが更新された際に、データ利用者(ここでは連携層)に対して自動的に通知する仕組み(例:Webhook)。これにより、連携層はより迅速に最新データを収集できます。

データ層のシステムは複数利用する

データ層システムを運用する主体は、地理空間データ連携基盤の運用者である必要はありません。国や都道府県のオープンデータカタログや、庁内の別部署が管理するオープンデータカタログ、庁内GIS、民間のAPIなどすでに運用されている複数のものを上手に活用します。国、県などが運用する既存のデータカタログにあるデータを活用します。次回詳しく紹介しますが、国のオープンデータだけでもかなりの質と量が揃います。自治体として利用したいデータは、オープンデータカタログがあればそこにデータを入れれば大丈夫です。

データ層を構成するツール・システム例

ここからは、自治体としてデータ層を整備する際に、利用可能なシステムの選択肢を紹介します。

  • CKAN
  • GitHub (ギットハブ):
    • ソフトウェア開発プラットフォームとして知られますが、CSV や GeoJSON といったデータセットの公開・管理にも非常に有効です。バージョン管理機能 によりデータの変更履歴を正確に追跡でき、「いつ、誰が、どこを修正したか」が明確になります。また、GitHub は開発者が親しんだプラットフォームなので、統合型 GIS 等からデータを自動連携する方法も簡単です。
    • 例: 高松市オープンデータ https://github.com/takamatsu-city/opendata
  • ファイルサーバー/ウェブサーバー
    • 一般的なファイルサーバーやウェブサーバーに、CSV、シェープファイル、GeoJSONなどのデータファイルを配置するだけでもデータ層として機能します。連携層は、指定されたURLからこれらのファイルをダウンロードします。
  • 各種業務用システム (GISなど)
    • 庁内で利用されている統合型GISや個別業務GISなども、データのエクスポート機能やAPI連携機能を通じて、データ層の一部となり得ます。

Geolonia がデータ層のシステムを提供する際には、GitHub を用いたデータカタログを提供しています。

データは「置いておくだけ」というシンプルさが大事

データを継続的にアップデートするコツは、その手間を減らすことが重要です。庁内のいろいろな部署に更新をお願いすることになるためです。地理空間データ連携基盤では、以下のような便利さを提供します。

  • 複雑なフォーマット変換は不要
    GISならシェープファイルやGeoJSON、台帳システムならCSVといった、普段利用している形式でデータを出力すれば、連携層が後続の変換処理を引き受けます。列の名前を毎回編集するなどの必要はありません。
  • 簡単なデータ受け渡し
    インターネット経由でアクセス可能な場所にデータを配置する連携層が自動的に収集(ダウンロード)するので、データ提供のために専用のAPIを開発したり、複雑なシステム連携を構築したりする必要は必ずしもありません。
  • 更新も容易
    データを更新すると、連携層を通じてアプリケーション側の表示も更新されるため、関係者への個別連絡などの手間が省けます。

このように、データ提供者は、「連携層がアクセスできる場所に、基本的な形式でデータを置いておく」 という対応だけです。通常業務の成果物を連携可能な形で「置いておく」だけというハードルの低さが大切です。統合型GISで情報を更新するだけで、自動的にデータ提供がされる自動化を行うのもよいでしょう。データを整備するためだけの業務時間をできるだけ増やさないようにする ことが、継続的なデータ活用の鍵となります。

データ品質と鮮度を管理しよう

地理空間データ連携基盤はデータを「繋ぐ」役割を果たしますが、元となるデータの品質(正確さ、信頼性)や鮮度(最新であるか)は、データ層における各データ管理者に依存します

CKAN や GitHub のようなプラットフォームでは、データの最終更新者や更新履歴を確認できるため、非常に有用です。データに誤りが見つかったり、更新が滞っている場合、地理空間データ連携基盤の運用者は、データを公開している部署などに、具体的な依頼ができるからです。

まとめ:データ層は連携の「土台」、提供はシンプルに

今回は、地理空間データ連携基盤の「データ層」について、求められる機能、利用可能なシステム、そしてデータ提供のシンプルさと品質管理の重要性について解説しました。

次回予告

次回は、第5回「こんなにある!スマートシティを支える多様で豊富な地理空間情報の『データソース』」 です。国が提供する質・量ともに充実した地理空間データ、民間企業が提供する先進的なデータの他、実は自治体内部に眠っているたくさんのデータについて知る回です。お楽しみにしてください!