評価内容
不可、可、良、優、探花、榜眼、状元 の 7段階で評価する
評価基準は下記の通りとする
0. 不可
・そもそも統計情報が無い
1. 可
・画像形式でPDFが有る
・テキスト形式でPDFが有る
・形式を整えられていないエクセルが有る
2. 良
・形式を整えられたエクセル、CSVが有る
形式を整えられたとは、一見して閲覧用の表として成立しており、かつタイトル、凡例、注釈を除いた、文章としての情報を含まないものを指す
いわゆる、再利用性、機械判別性のある統計データではない
3. 優(現時点で現実的な状態)
再利用性、機械判別性のある統計データを指す
ファイル形式はxls、もしくはCSV
データ中の数値は半角の数値で入力
単位を記述する場合、数値と同じカラムに記述しない
一列に一つの系列のデータが入力された状態にする。
セルの結合は行わない(エクセル形式のみ)
罫線、文字飾りを行わない(エクセル形式のみ)
年、年度は西暦に統一する。
単語の中にスペースを入れない。
日付、項目名等の記入ルールを統一する。
4. 探花(現時点で実現している理想的な状態)
優に加えて
ファイル名のルールを統一する。
その他オープンデータガイドのルールに従う。
ウエブ上の場所を固定する。
5. 榜眼(現時点で実現可能な理想的な状態)
最小の工数でDBへの取り込みが可能で、そのまま統計分析やサービスに利用できる
ファイル形式はCSV(, 区切り、文字列は "" で括る)で提供し、別途xlsにて閲覧用のデータを提供
文字コードはUTF-8
一行目はヘッダー行とし、値はカラム名とする
二行目以降はデータ行とし、次の4つのいずれかの形式を取る
整数(半角数字のみで構成)、小数(半角数字+ .のみで構成)、日時型の文字列(YYYY-MM-DD HH:MM:SS形式で構成)、その他の文字列からなる
DBでは下記のような汎用の定義で利用可能なこと(仮にMySQLの形式で定義)
整数 BIGINT NOT NULL DEFAULT '0',
小数 DOUBLE NOT NULL DEFAULT '0.0',
日時型の文字列 DATETIME NOT NULL DEFAULT '1000-01-01 00:00:00',
その他文字列 TEXT NOT NULL,
最小の工数とは
(1). 当該のCSVファイルのファイル名をテーブル名として
(2). 同ファイルのヘッダー行の各値をカラム名とし
(3). 同ファイルのデータ行を値として
(4). 汎用のプログラムに当該ファイルを食わせることで、汎用のSQLに変換できる
・・・と、定義する
例:
複数の観測点における温度変化の統計があるとして、
ファイル名 temperature_bservation.csv
---------------
観測点ID、観測日時、温度、備考
123, 1.2, "2016-01-01 00:00:00", ""
123, 11.2, "2016-03-03 00:00:00", ""
555, 0.0, "2016-04-04 00:00:00", "測定不能"
987, 23.4, "2016-06-22 00:00:00", ""
987, 35.2, "2016-09-30 00:00:00", "猛暑日"
---------------
↓ 汎用プログラムで変換
---------------
CREATE TABLE IF NOT EXISTS temperature_bservation (
id BIGINT UNSIGNED NOT NULL AUTO_INCREMENT,
観測点ID BIGINT NOT NULL DEFAULT '0',
観測日時 DATETIME NOT NULL DEFAULT '1000-01-01 00:00:00',
温度 DOUBLE NOT NULL DEFAULT '0.0',
備考 TEXT NOT NULL,
PRIMARY KEY (id)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4;
INSERT INTO table_name
VALUES (NULL, 123, 1.2, "2016-01-01 00:00:00", ""),
(NULL, 123, 11.2, "2016-03-03 00:00:00", ""),
(NULL, 555, 0.0, "2016-04-04 00:00:00", "測定不能"),
(NULL, 987, 23.4, "2016-06-22 00:00:00", ""),
(NULL, 987, 35.2, "2016-09-30 00:00:00", "猛暑日")
;
---------------
6. 状元(現時点では実現不可と思われる理想的な状態)
榜眼 に加え、
・必要な公的コードを定め、当該コードが過不足無く利用されている状態
・あらゆる統計情報におけるカラム名とその意味が統一されていること
・APIを提供しそのレスポンスとしてXML、JSON、CSVの各形式 および HTML表示で提供する。
(HTMLは単純なテーブルレイアウトの画面表示の意)
コメント
最新を表示する
NG表示方式
NGID一覧