[201711] data tech 2017

■データ分析基盤
10TBまでのデータ量ならRDBMSが良いが、データが増えるにつれ遅くなっていく。
10PT以上のならHadoopやSparkが良いが、多くの組織ではそれ程のデータは保持していない。
上記の間のデータ量で最適な分析基盤は今のところない。しかし、HTAPという新しい技術が登場しており、成熟したら今後の定番になると考えられる。

■HTAP(Hybrid transactional/analytical processing)について
HTAPは以前は業務用(基幹系)と分析用(情報系)に分けていたデータベースを統合するしたもの。
通常は業務用からデータを取り出し、加工したデータを分析用に格納しなおしていたが、業務用データを直接扱って分析を行う。
背景にはデータベースサーバのハードウェア(主にメモリ)の高性能化と、意思決定の高速化のニーズがある。
この業務用と分析用の統合は昔から何度か試みられていた。
しかし、リソースを消費するがビジネス上の優先度が低い分析系がリソースをあまり消費しないがビジネス上の優先度が高い基幹系に悪影響を与える可能性があるリスクを考えて、一般的には統合化されることはなかった。
このリスクは依然なくなっておらず、また、HTAP自体製品としてまだ十分に使用に耐えるものではないが、今後注目すべき技術である。

■データ分析の為のデータ
分析のためのデータは通常使用しているデータとは異なり、加工が必要である。
この加工の精度によって実行パフォーマンス、分析結果に影響を大きく与えるので重要な工程である。
基本的に分析用のデータとは次の特性を持つ。
・有限な状態への分類(例えば性別)
・数値の大小(例えば金額)
このブログに詳しい解説がある。
http://www.dtvcl.com/blog-datascience2-160522

■データ分析の為の組織作り
データ分析は次の4つのステップ(人間のサイクル)で回る。
意思決定者→現場→データ管理者→分析者→(戻る)
理想はこの各ステップで次が行われることである。
-意思決定者 : 分析方針と行動を指示する
-現場 : 実際に行動する
-データ管理者 : 正しく整備する
-分析者 : 現場に熟知している
しかし現実には以下のような状態が多い。
-意思決定者 : 数字嫌い
-現場 : 混乱する
-データ管理者 : 利用困難なデータ管理
-分析者 : 現場に無知である
上記の問題はどれか一つでも存在しているだけでサイクル全体が機能しなくなる。
各ステップそれぞれを改善する必要があるが、特に意思決定が一番問題になりがち。
例えば、アマゾンは意思決定を自動化して意思決定を省いている(コンピュータの結果に完全に従う)。
意思決定を適切に行えるように以下を分析前に考えるべき。
-課題設定 : どの指標を最大、最小にすべきか
-アウトカム : (改善結果の)望ましさを具体的に定義
-解析単位 : (改善結果の)望ましさを比べる単位
-施策に活用 : 分かった分析結果からどのようなアクションをとるのか

■AIの導入について
機械学習(AI、ディープラーニング等)は既存の枠組みを変えて導入しようとするのは困難である。
具体的には制度上(組織文化、法律)の問題であることが多い。
これを回避するため、まずは枠組み内でピンポイントに絞って導入すべきである。
人間の補助として扱うのも良い方法である。

■気になった単語
・IoT PoC (IoT Proof-of-Concept)
PoC(Proof-of-Concept)とは、一般的には「概念アイデア)の実証」を意味する。
これは開発着手前に新しい概念をどう実現するか検証することである。
IoTでは新しい概念(使い方、価値)を打ち出すことが多いので、このPoCが重要となる。
IoT PoCとはIoTにおけるPoCそのものや、PoCを実施するためのサポート・環境構築のサービスや製品のことを言う。
・DMBOK (Data Management Body of Knowledge) [ディンボック]
データ管理の為の知識体系。
データの管理体制、データのアーキテクチャ、データの運用、セキュリティなどデータ管理の全般を扱う。

・TensorFlow [テンソルフロー]
Google製のオープンソースの機械学習エンジン。
ディープラーニングアルゴリズムを実装している。


Notice: Trying to get property 'queue' of non-object in /usr/local/wordpress/wp-includes/script-loader.php on line 2876

Warning: Invalid argument supplied for foreach() in /usr/local/wordpress/wp-includes/script-loader.php on line 2876