いかおくら自習室のブログ

普段の学習内容などのアウトプット用のブログです

学習day24

データ分析する流れを改めて。

①課題の設定

社内の人間、クライアントなどとのコミュニケーションを通じて、解決したい課題が何なのか?を設定する。

 

②仮説の設定

解決したい課題を設定したら、そこから考えうる仮説を出す。

その際、考えうる仮説設定はできる限り抜け漏れなく書き出す。

そこから優先順位をつけていく。

 

③何を比較するか or どの数値を見るか

立てた仮説を立証する際、何の数字を比較したら証明ができそうかを立てる。

 

④どのように可視化するか

どういう見せ方をしたら誰がみても同じ解釈することができるのか?

ヒストグラム、散布図など、、

 

⑤どういうデータが必要か

出したいヒストグラム、散布図などイメージしたら、行列のテーブルで何のデータを揃えればいいのか?

 

⑥どんなSQL書くか

データを出すときに、何のSQLを書けば実現できるのか手を動かす。

 

ーーーーーーーーーーー

とにかく課題の設定と、仮説の設定が大事。

可視化やSQLはあくまで手段でしかないため、最初の方針決めを練りに練ったものでないと

いまいちな結果だったり、出した結論があまりインパクトがないものになってしまう可能性がある。

 

これは分析に限らず何でもそうね。

ただ手を動かす手段の時をやっていた方が仕事してる感が出るから、そっちに注力しがち。私も。

 

今は勉強が割とRやPythonとかの手段を力入れて学習していたが、

上流工程の箇所を頭沸騰するくらい気をつけないと他の人との差別化は難しそうだ。