概要

とりあえず、先日7日水曜日に最初の授業があったので振り返り。

統計学と機械学習の大まかな違い

上記のように分類することができる。

以下は、普段webエンジニア(PHP)として、ファイル操作等をしていて、すごいと思った関数、備忘録として残す。

データが数値の大小で判定できない、カテゴリーデータだった場合に、ダミー変数を自動で作成してくれる
以下のようなデータ(user_info.csv)があったとする。カテゴリーデータはsexで男が0、女が1、LGBTQが2とする。

これを以下のようにすると

infoData = pd.read_csv("user_info.csv")
newData = pd.get_dummies(data=infoData, columns=["sex"])

uid	name	sex_0	sex_1	sex_2
1	taro	1	0	0
2	hanako	0	1	0
3	hogehoge	0	0	1

といった風に、0か1で判定できるようになる。

これは最初よく意味が分からなかった。使い方は以下のよう

for i in newData.index:
    if newData.iloc[i]["sex_0"] == 1:
        print("男です")

ilocの使い方は、行と列を指定して取得するというもの。上記のコードだと、newDataのi行目のsex_0を取得して判定。慣れれば、簡単。