いかおくら自習室のブログ

普段の学習内容などのアウトプット用のブログです

統計学

いろんな分布の期待値と分散

・二項分布 E(X) = np V(X) = np(1-p) ・ポアソン分布 E(X) = λ V(X) = λ ・幾何分布 E(X) = 1/p V(X) = (1-p) / p^2

期待値の2乗と2乗の期待値

期待値の2乗、2乗の期待値・・???? と時々ややこしくなるので整理。 ①2乗の期待値 E(X) = ∮ xf(x)dx (連続型確率変数) 2乗の期待値は、上記の期待値の公式をもとに E(X^2) = ∮ x^2f(x)dx という式になる。なので単純にE(X)の値を2乗するわけではない。 ②…

独立と排反の違い

混同してしまうときがあるので整理。 独立:試行に使う。前後の試行に何も関係がないこと。 ex ・くじを引いて、くじを戻してまた引く ・袋の中の玉を引いて、また戻して引く など 排反:事象に使う。AとBが発生する事象は、同時に起こり得ないこと。 ex ・…

抽出法の種類

・層化抽出法(層別抽出法) 層、つまり母集団の比率と同じ比率で標本を抽出すること。 母集団の年齢30歳以上と未満と分け、30歳以上が4割、未満が6割だった場合 同じ4:6の比率で標本抽出するのが層化抽出法。 ・クラスター抽出法(集落抽出法) 母集団をク…

変動係数とは

変動係数とは、平均値のデータのばらつきを表すもの。 主に相対的に比較したいときに使われる。 変動係数 = 標準偏差 ÷ 平均値 CV = σ / x もちろん値が大きいとばらつきが大きい、という評価になる。

共分散と相関係数

まず前提として、相関係数を求めるには共分散を求める必要がある。 共分散:2組の対応するデータの関係を表す値 相関係数:共分散を各変数の標準偏差で割ったもの Cov(X,Y) = E[(X - μx)(Y - μy)] XとYのズレを1個ずつ採用したのが共分散となる。 仮に、X=Y…

学習day23

改めて分散分析の箇所で分からないところを確認。 ◎平均平方 平方和 ÷ 自由度 で求められる。 ここでは不偏分散を求めるやり方と同じ。 不偏分散も自由度(n-1)で出している! なので分散を求めているんだなーで留めておく。 ◎F値 F値が 群間の平均平方 ÷ 郡…

学習day22

改めて、カイ二乗分布とは、F分布とは?を確認 カイ二乗分布・・観測度と期待度の差を表すカイ二乗値を出す。その値が有意なものかどうか自由度で測る。 F分布・・・・・ あかん、仕事上がるの遅すぎて力尽きた

学習day20

F分布とは https://toketarou.com/f-distribution/ そもそもカイ二乗分布とは https://toketarou.com/chi_square/ ・・・とメモしたのは良いが、ちゃんと見れてないので明日みる。

学習day15

昨日先生に質問した分散分析のおさらい。 だが、、、やはり平均平方が全然理解できない。。。 ・平均平方の定義が分からない ・なぜ平均平方を求める時に平方和を自由度で割ると求められるのかが分からない 平方和は、各値と平均との差を2乗し、サンプル数で…

学習day13

◎重回帰分析 今見ている教材はエクセルの分析ツールを使っている。 しかし自分はスプレッドシートを使っているので分析ツールはない。 そこで、XLMiner Analysis ToolPakというツールを使って分析してみる。 ただ、、、うまくいかない。反映がされない。。。…

学習day12

今日は回帰分析をやろう。 ◎回帰式の出し方 散布図を作成し、系列のトレンドラインを表示。 ラベルで「方程式を使用」を選択すれば「y = ax + b」のような方程式が表示される。 しかし、、回帰分析のP値の求め方が全然分からない。。。。 ◎決定係数 回帰分析…

学習day9

データの可視化について 近似直線は、スプレッドシートの「トレンドライン」にあたる。 さらにカスタマイズの「決定係数を表示する」を入れればR^2の値が表示される。 これは「この直線の、データに対する当てはまりのよさは約◯%である」という数字。 なお、…

学習day8

改めてエクセル(スプレッドシート)で使う統計に関わる関数を勉強 分散:平均を中心にどのくらいデータがばらついているかを表す統計量 分散の値を直接使うことはあまりないらしい。 =VAR.P:母集団が全て分かっているとき =VAR.S:母集団から標本を抽出し…

学習day8

分散分析の証明方法において・・・ 3つの群があったとして、なぜ群間のズレだけで評価しないのか? なぜ群間と郡内を比べて、群間の方がズレが大きければ「差はない」、郡内の方がズレが大きければ「差がある」と評価できるのかがいまいち分かってない。 3つ…

学習day7

昨日の「なぜ平均平方は「平方和÷自由度」なのか?」の続き そもそも自由度とは何か?から。 自由度とは、自由に決めることができる値の数のことを指す。 x + y + z = 10 の場合、合計が10になるように好きに入れられる数は2つのみ。 仮にxとyに好きな数字を…

学習day6

分散分析 2つの標本間の平均の差を調べるときはt検定を使う。 3つ以上になるとt検定は使えない。その場合は分散分析を行う。 群間のズレ:全体の平均から、どのくらい各群がどのくらいズレているのか? 郡内のズレ:各群の平均から、個々のデータはどのくら…

学習day5

t =(標本平均の差)÷(標本平均の差の標準誤差) 自由度=(Aのサンプルサイズ-1)+(Bのサンプルサイズ−1) 対応ありのt検定の場合、サンプルAとサンプルBの差は同じ対象者から取ってきている。 なのでサンプルAとサンプルBの異なる母集団から標本を取ら…

学習day4

今日は平均の差の信頼区間を学習した。 その前に、標準偏差と標準誤差の違いが良くわからなくなった 統計の解説はここのサイトが分かりやすい https://best-biostatistics.com/summary/fuhen-bunsan-n1.html https://best-biostatistics.com/summary/sd-se-c…

学習day3

昨日の信頼区間の復習。 信頼区間=標本平均 ± t × 標準誤差 ・標本平均は、名前の通り取ってきたデータ(=標本)の平均を指す。 ・標準誤差は、標本平均の標準偏差を指す。 求め方は、不偏分散 ÷ サンプルサイズ(取ってきたデータの数) にルートをつける ・不…

学習day2

信頼区間を今日は学習。 信頼区間とは、母集団の平均を知りたいが、数が多すぎて全て計算できないとき、 標本として抽出したサンプルから取り出したデータが95%(98%)の確率で含まれていそう。という幅を持たせた推測を指す。 計算式を記載。 ・標本平均=…

学習day1

統計学の学習のために、初歩的なところからスタート http://kogolab.chillout.jp/elearn/hamburger/index.html 今日は平均と分散の学習をおこなった。 平均は言わずもがなだが、分散の求め方を学習した。 ①各データの値から平均を引く ② ①の結果を2乗する(^…