いかおくら自習室のブログ

普段の学習内容などのアウトプット用のブログです

2022-01-01から1年間の記事一覧

いろんな分布の期待値と分散

・二項分布 E(X) = np V(X) = np(1-p) ・ポアソン分布 E(X) = λ V(X) = λ ・幾何分布 E(X) = 1/p V(X) = (1-p) / p^2

期待値の2乗と2乗の期待値

期待値の2乗、2乗の期待値・・???? と時々ややこしくなるので整理。 ①2乗の期待値 E(X) = ∮ xf(x)dx (連続型確率変数) 2乗の期待値は、上記の期待値の公式をもとに E(X^2) = ∮ x^2f(x)dx という式になる。なので単純にE(X)の値を2乗するわけではない。 ②…

無名関数(ラムダ関数)の書き方

ラムダ(lambda)関数とは、1行で終わるような関数のことを指す。 変数 = lambda 引数1, 引数2 : 処理の式 上記の記述では、引数1と引数2を受け取ってから処理の式を行う。 変数に入れている場合、ラムダ関数を使うには引数に値を代入する必要がある。 a = lam…

独立と排反の違い

混同してしまうときがあるので整理。 独立:試行に使う。前後の試行に何も関係がないこと。 ex ・くじを引いて、くじを戻してまた引く ・袋の中の玉を引いて、また戻して引く など 排反:事象に使う。AとBが発生する事象は、同時に起こり得ないこと。 ex ・…

抽出法の種類

・層化抽出法(層別抽出法) 層、つまり母集団の比率と同じ比率で標本を抽出すること。 母集団の年齢30歳以上と未満と分け、30歳以上が4割、未満が6割だった場合 同じ4:6の比率で標本抽出するのが層化抽出法。 ・クラスター抽出法(集落抽出法) 母集団をク…

変動係数とは

変動係数とは、平均値のデータのばらつきを表すもの。 主に相対的に比較したいときに使われる。 変動係数 = 標準偏差 ÷ 平均値 CV = σ / x もちろん値が大きいとばらつきが大きい、という評価になる。

共分散と相関係数

まず前提として、相関係数を求めるには共分散を求める必要がある。 共分散:2組の対応するデータの関係を表す値 相関係数:共分散を各変数の標準偏差で割ったもの Cov(X,Y) = E[(X - μx)(Y - μy)] XとYのズレを1個ずつ採用したのが共分散となる。 仮に、X=Y…

辞書オブジェクトをforループで回す時のキーと値の取得方法

d = {'あああ' : 1, 'いいい' : 2, 'ううう' : 3} のようなオブジェクトを作ったとする。 辞書オブジェクトをforループで回すとき、以下の3つが使用できる。 ・keys()→キーが取得できる ・values()→値が取得できる ・items()→キーと値両方取得できる キーを…

forループ使う時、変数名を使わないときは_で代用できる

pythonでforループ使う時、無意識に for i in オブジェクト: 処理 という書き方をするが、 処理の中にiが登場しなければ_で代用できる。 for _ in オブジェクト: 処理

辞書に要素追加方法

辞書は{key : value}で構成されている。 例えば、空の辞書に要素を追加する場合は 辞書変数[key] = value で追加できる。 例えば d = {} d['あああ'] = 1 print(d) このように要素を追加することができる。

学習day30

一旦基礎の段階が終了した。 分析業務の上流のところをもっと磨きたい。 質の良いアウトプットは ・軸決め(全体を分析するよりは、全体の中でも〇〇を切り取って分析します!と軸を決める) ↓ ・分析する前の前提や定義、アプローチ方法こうやっていくよの…

学習day30

一旦基礎の段階が終了した。 分析業務の上流のところをもっと磨きたい。 質の良いアウトプットは ・軸決め(全体を分析するよりは、全体の中でも〇〇を切り取って分析します!と軸を決める) ↓ ・分析する前の前提や定義、アプローチ方法こうやっていくよの…

学習day29

今まで投稿していなかったのは学習サボっていたという訳ではなく スクールで出た課題の復習に目一杯時間使っていた。 分析作業は、あるデータから異常値を見つけ出し、深掘りを行う。 またそこから出た事実に対して「なぜその結果が出たのか?おそらく〇〇と…

学習day28

最近はスクールの復習や予習ばかりで、Rやpython、統計学の勉強はストップしている。 そして復習や予習をしていて気づいたことは、「そもそも」の前提を深く思考した方が後の分析作業が楽になる。 小売店の売上を改善させる。にしてもそもそも何の?店長に裁…

学習day27

分析する時のmemo 1 : 仮説と前提は異なる 2 : 変数が多い場合は、仮説と優先度に注意 3 : ターゲット変数←特徴量の関係だけでなく、特徴量間の関係にも着目 4 : アウトプットはプロセスに関してまとめない(こういう順番で分析しました。ではなく結論から伝…

学習day26

ずっと課題に着手していて、ようやく完成した。 発表あるけど乗り切れるか。。。。 メモ データ分析は差を見つけるお仕事

学習day25

日曜、月曜も勉強、というか課題と向き合っていたが、、、、 全然進まん。というかもらったデータをとりあえず触って分析。はできるが、ナイスな仮説設定ができておらず 「結局これで何がしたいんだっけ・・?」が抜け出せずグルグルしていた。 何かしら仮説…

学習day24

データ分析する流れを改めて。 ①課題の設定 社内の人間、クライアントなどとのコミュニケーションを通じて、解決したい課題が何なのか?を設定する。 ②仮説の設定 解決したい課題を設定したら、そこから考えうる仮説を出す。 その際、考えうる仮説設定はでき…

学習day23

改めて分散分析の箇所で分からないところを確認。 ◎平均平方 平方和 ÷ 自由度 で求められる。 ここでは不偏分散を求めるやり方と同じ。 不偏分散も自由度(n-1)で出している! なので分散を求めているんだなーで留めておく。 ◎F値 F値が 群間の平均平方 ÷ 郡…

学習day22

改めて、カイ二乗分布とは、F分布とは?を確認 カイ二乗分布・・観測度と期待度の差を表すカイ二乗値を出す。その値が有意なものかどうか自由度で測る。 F分布・・・・・ あかん、仕事上がるの遅すぎて力尽きた

学習day21

SQL

次のスクールではSQLをやる・・・ ということで復習でSQL触っていた。 簡単な内容であれば問題なく書けるので、サブクエリくらいまでは慣れておきたい。 ひたすら問題集解いていたので新しく書くことないな。。。

学習day20

今日もまた質問をした ◎Rのクラスとファクタについて クラス・・ ベクトルに入っているデータがどういう属性なのか調べる時に使う。 例えば、何かモデルを作っているとき。時々属性の不一致によってエラーが起きる時がある。 その場合にclassを使って、ベク…

学習day20

F分布とは https://toketarou.com/f-distribution/ そもそもカイ二乗分布とは https://toketarou.com/chi_square/ ・・・とメモしたのは良いが、ちゃんと見れてないので明日みる。

学習day19

本だと中々イメージが湧かないので、ドットインストールで基礎を一通り行うことにした。 ・help()で知りたいことが出てくる ・ls()で定義した変数を見れる ・rm()で変数を削除する ・文字列の連結はpaste()で合わせられる ・sep=で各文字列の間に何を入れる…

学習day18

環境に関して勉強していたが、まっっっっっっったく意味不明だった。。。。 動画や他のサイト探してみよう。。。。。。。 ◎NULLとNAの違い NAはベクトルの要素となり得るが、NULLはベクトルの要素にはならない。 リストの概念も配列とどう異なるのか混同して…

学習day18

Pythonの練習 ◎繰り返し処理を使ってリスト、2次元リストの作り方 n = [1 for i in range(10)] print(n) print(len(n)) [1, 1, 1, 1, 1, 1, 1, 1, 1, 1] n2 = [[1 for i in range(3)] for j in range(4)] print(n2) [[1, 1, 1] , [1, 1, 1] , [1, 1, 1] , [1…

学習day17

Rの続き。 (一旦属性やクラス、ファクターは置いておく) ◎head関数 「head(オブジェクト)」で書く。 オブジェクトの箇所は指定がなければデフォで6個表示させる。 head(data, n = 20) のように指定をすればn個の数が表示できる。 ◎sample関数 学習し始めの…

学習day17

スクール2日目。 コードを書く・・・というより生のデータを見てどう感じるかディスカッションがメインだった。 分析をする際には、 ・データを誰でも同じ解釈をすることができることが大事 ・一部の切り取った情報だけではなく、時間軸で傾向を見る必要があ…

学習day16

改めてRのオブジェクトの確認 ◎アトミックベクトル 「c()」を使って生成される。数字のベクトルと同じ概念である。※ベクトルとは、要素を1列に並べたもの。 アトミックベクトルは、1つの同じ型のデータしか格納できない。型の基本種類は6つ。 ・double ・int…

学習day16

全然pythonやってなかった。 久しぶりにpaizaのCランクやろうかなーと思って触ったら全然できなかった。 ちまちま復習して感覚取り戻す。 rstrip関数:rstrip()の引数に書いた文字が消去される。空欄の場合はスペースが消去される。 split関数:引数で受け取…