いかおくら自習室のブログ

普段の学習内容などのアウトプット用のブログです

学習day14

疑問を先生に投げた。

(とりあえずのメモなので、正しい表現ではないかもしれない。。。。)

 

・分散分析はなぜ群間だけのズレで見ないのか?

→群間のズレだけでは足りない。郡内のズレ、つまり各群のバラつきも見ないと正しく評価できない。

実はt検定も標本自体のズレを修正して評価している。それはt値を出すときに標準化していることこそがグラフを統一させてAとBの違いを正しく計算できるようにしている。

3つ以上になると標準化ができないので、各群がどれだけ平均からズレているのかと、群自体のバラつきの2つを出す必要がある。

 

・そもそもなぜ分散分析になるといきなりズレは「平方和」で見るのか?

→1つ目の解答と付随するが、今までのt検定のように分散だけでは評価できないから。

全体を見るために平方和を出している。

 

・平均平方の定義がよく分からない。。なぜ平均平方は「平方和 ÷ 自由度」なのか・・?

→まずF検定を知る必要がある。

Fの値は、郡内と群間の分散の比を出している。つまり分散の分析を行なっている。

郡内と群間を比較するために、F=群間/郡内という計算方法。

(Fは正規分布を二乗した、カイ二乗分布とか言っていたような。。。。。。)

そして平均平方という書き方をしているが、平均平方は郡内、群間の分散を表している。

 

・分散は抽出した標本データのばらつき具合の平均であるという理解で合っているか?分散の計算式が最後にサンプル数で割っているので、これは平均と同じ意味合い・・?

→平均、という定義を入れるとちょっと意味合いが変わってしまうので、分散はデータのバラつき具合。という理解でとどめておいた方がよい。

 

スプレッドシートでエクセルのように分析ツール使う方法はあるか? →なし(!)w やろうとするのであればpythonかRを使った方がいい。

 

 

ついでに、データサイエンティストになるための勉強方針も教えてもらった。

①pyhonとRのプログラミングをある程度できるようになっておく

自分で調べながらでも書けるくらいの実力はつけておいた方が良い。

 

②授業で出されるコードは自分で動かしてみる

 

③必ず復習する。写経は意味なし。

 

④kaggleのDatasetsにあるデータを触ってみる。

生のデータに触れてみた方がいいとのこと。1つDLして、可視化してみたり仮説検定してみたり、加工してみたりと触って興味を出して方がいい。

 

⑤定義を腹落ちさせることは大事だが、重箱の隅をつつくようなこだわりは必要ない。

深入りすると学習が停滞してしまうので、大枠が掴めたら次にいく、という姿勢が良いとのこと。

 

 

たくさん聞けた!

明日もう一度分散分析に触れて理解を深めていきたい。

(ここに書いたメモは今持てる限界の知識量で書いたので、何か解釈間違っていたらごめんなさい)