いかおくら自習室のブログ

普段の学習内容などのアウトプット用のブログです

学習day20

今日もまた質問をした

 

◎Rのクラスとファクタについて

クラス・・

ベクトルに入っているデータがどういう属性なのか調べる時に使う。

例えば、何かモデルを作っているとき。時々属性の不一致によってエラーが起きる時がある。

その場合にclassを使って、ベクトルの属性を調べる。

 

ファクタ・・

例えば、charactor型のデータを回帰分析しようとするとエラーが起きることがある。

その場合、「as.factor」を使い、データをfactor型に直す。

入っているデータをカテゴリに分け、それを「levels」として分ける。(ラベルと同じ)

levelsでカテゴライズした因子を1行目に配置し、各列の要素を0か1かで表す。

その形に直せば、回帰分析がしやすくなる。

 

ーーーーーーーーーーーー

tidyverseというサイトも使った方が良い

http://bcl.sci.yamaguchi-u.ac.jp/~jun/notebook/r/tidyverse/

各関数コピペできるので、何となく「あーこういう動きしてるのね」の理解に役立つ。

 

◎就職活動について

データサイエンティストになるには、技術テストがある。

SQLを練習しておく。サブクエリも問題なくかけた方がいい。

②テストで難しい統計学はあまり問われない。むしろ問いてくるところはマウント取られる可能性があるので避けた方がいい。

逆に、基本的な統計手法をマスタした方がいい。自分がなんでその手法を使うのか、意図や理由をきちんと説明できるレベルにした方がいい。

python,Rのコーディングテストはあまり問われない。問われるとしたらバブルソートができるかどうか?くらい。

ポートフォリオはあった方がいい。統計手法は何でもいい。なぜそれを課題設定したのか、そして何が分かったのか?が大事。

自分の興味ある分野を調べて解析してみて、それをnote,qiita,githubに載せた方がいい。1個とは言わず2個くらい。

 

今から気をつけるべきは、技術書は細部まで読み込む必要はなく、一通りこなしたら生データを触って実践を繰り返す。

その実践に関しても、いきなり触るのではなく課題設定、仮説を立てて分析していく。

 

なので、今理解しにくいところは先生陣をフルに活用して基本的なところは言語化できるところまではやる。

その後は自分の興味あることを分析してポートフォリオとして充実させていった方が良さそうだ!