文部科学省発行「高等学校情報科『情報Ⅰ』教員研修用教材」の「学習20」では「情報システムが提供するサービス」として、様々な情報システムやデータの形式、そしてオープンデータや政府統計の総合窓口(e-Stat)が紹介されています。
学習20:情報システムが提供するサービスの内容
- 情報システムが提供するサービス
- オープンデータの重要性とその活用
- データの蓄積・管理・提供する方法
- 国や地方公共団体が提供するオープンデータ
- GIS を用いたデータの可視化と問題発見
GIS を用いたデータの可視化と問題発見に関しては、政府統計の総合窓口(e-Stat)での会員登録が必要になります。また、1~4の内容を踏まえた上で取り組むべき内容のため別記事にて紹介しております。
GISを用いたデータの可視化と問題発見~統計GISでAED設置地域の人口密度を分析
(1) 情報システムが提供するサービス
研修用教材ではPOSシステムやSNSやeラーニングシステムなどの様々な情報システムと活用の例について言及されています。情報システムに蓄積される膨大な量のデータを特にビックデータと呼びます。また、誰でも利用できるようにオープンな形で公開されるデータをオープンデータと呼びます。
(2)オープンデータの重要性とその活用
オープンデータの意義や定義などについては総務省が公開している「オープンデータ基本指針(PDF)」が参考になります。
本章ではオープンデータを活用する例として「AED(自動体外式除細動器)の設置箇所一覧」を取り上げています。実はAEDの設置箇所データは内閣官房情報通信技術(IT)総合戦略室が定める推奨データセット一覧にも含まれている物のため、様々な地方公共団体が公開しています。
誰もが無償で二次利用が可能なライセンスについて
商用・非商用を問わず、誰でも無償で二次利用が可能なライセンス体系が現代には幾つか存在します。代表的なものはクリエイティブコモンズのCC-BYです。また、著作権が放棄されたパブリックドメイン(PD)のものも、同様に二次利用が可能です。
また、ソフトウェアの世界ではクリエイティブコモンズが発明されるよりも前から「オープンソース」のライセンス体系が発明されています。ソフトウェアをオープンな形で公開したい場合には、ソフトウェア用に設計されているオープンソースライセンスの中から適切な物を選択するのが妥当です。
(3)データの蓄積・管理・提供する方法
システム間でデータをやり取りする場合やオープンデータのような形で地方公共団体がデータを公開する場合には、なんらかの形でデータを蓄積したり管理したり提供する必要があります。
ファイルによるデータの交換
わかりやすい方法の一つがファイルによるデータの交換です。ファイルならWeb上に公開するのは簡単ですしメールなどでも送受信が可能です。
WebAPIによるデータの交換
3章や4章の学習21ではWebAPIが登場しますが、これもデータを交換する方法の一つです。WebAPIの場合には指定されたフォーマットに基づいて特定のWebサーバーにリクエストを発行すると、それに応じたレスポンスが返ってきます。レスポンスは文字列の場合やファイルが返ってくる場合もあります。「リクエストでファイルを送ったらレスポンスでファイルが返ってくるWebAPI」というのも実現可能です。例えば自分の顔写真を送ったらアニメ風に加工された写真が返ってくるようなWebAPIなどが考えられます。
データベースサーバーによるデータの蓄積
情報システムの裏側にはたいていデータベースサーバが存在するのですが、データベースサーバーはデータを単一ファイルで管理しているとは限りません。複数のファイルに分割して管理している場合や、そもそもファイルという仕組みを使っていない場合もあります。
テキストファイルとバイナリファイル
ファイルには大別すると「テキストファイル」と「バイナリファイル」が存在します。テキストファイルは仕様がOSやアプリケーションを越えて広く共通化されており、様々なソフトウェアやプログラミング言語上で利用できます。どちらの形式もオープンデータとして二次利用可能なライセンスで公開することは可能ですが、二次利用でプログラムから加工して扱いやすいのは圧倒的にテキストファイルになります。
研修用教材で取り上げられているオープンデータ化支援研修~第2部 オープンデータを公開するための手順~(PDF)の中でもCSVファイルというテキストファイルに属する形式がオススメされています。
主要なテキスト形式のファイル
TXT
テキストファイル全般を指すファイル形式です。開けてみたらCSVやXMLやHTML、あるいはJavaScriptのソースコードが書かれているかもしれません。
CSV形式
データをカンマ区切り(と改行)で表現している形式です。エディタで開くと文字列が列挙されているだけに見えますが、表計算ソフトで開くと表の形で表示されます。
XML形式
システム間データのやり取りやSVG画像の表現、記事更新情報のRSSやブラウザのお気に入り情報管理のOPMLなどで使われる汎用性の高いマークアップ言語です。HTMLの兄弟みたいな存在でもあります。WebAPIのレスポンス文字列にも良く使われていました。
主要なバイナリ形式のファイル
PDF(Portable Document Format)はアドビシステムズが開発した文章を扱うためのフォーマットの一つで現在は国際標準規格にもなっています。1つのファイル上に画像や図形などが埋め込め、また、文字列を画像ではなく文字列として保持することができ、フォントの埋め込みも可能です。Portableとある通り、コンピューター側にPDFリーダーソフトが入っていればファイルを開くことができます。PDFリーダーソフトはアドビシステムズが無料で配布しているほか、最近ではブラウザに標準で組み込まれています。
標準化されているので表計算ソフトやワープロソフトの独自ファイルよりはマシですが、プログラムからPDFファイルを読み書きするのはテキストファイルほど簡単ではありません。テキスト形式に属するHTML形式なら「スクレイピング」という手法で情報を取得できるので、HTML形式の方が二次利用は容易です。
Excel形式
Microsoft社のMicrosoft Excelのファイル形式です、拡張子はxlsx。CSV形式では保持できないシートの情報やグラフなどの情報も単一ファイルで管理できます。オープンデータで公開するときは二次利用の行いやすいCSVがお勧めです。
Word形式
Microsoft社のMicrosoft Wordのファイル形式です、拡張子はdocx。組織内で文章をやり取りするときには便利ですが、外部の人に渡すときに相手がMicrosoft Wordを持っていないと開けなかったり、互換ソフトで利用しようとするとレイアウトがずれたりする場合があります。オープンデータとして公開するときは比較的プログラミング言語からも扱いやすいPDFの方が喜ばれるかもしれません。
(4)国や地方公共団体が提供するオープンデータ
前述の通り「標準データセット」として地方公共団体はオープンデータを公開しています。以下に一例を列挙しますが、自身でもお住まいの地域や出身地のオープンデータを探してみて下さい。
川越市 – Open Data Saitama
和歌山市オープンデータ
和歌山県|オープンデータ提供