最近はデータサイエンスや機械学習に興味を持ってつまづきながら勉強をしています。
データサイエンスでも機械学習でもデータを整理したり、取り除いたりする工程は欠かせません。
慣れていないと覚えることが多くて大変ですよね。
データを取り扱うさいに覚えていると便利なメソッドなどを自分の備忘録をかねて記録を残しておこうと思います。
これからはじめるかたのつまずきが減ったらいいなと思っています。
覚えておくと便利なメソッド
DataFrameの名前はdfとします。
データの読み込み・書き込み
df = pd.read_csv(【ファイル名.csv】) | pandasでcsvfファイルを読み込んでDataFrameにします。 |
df.to_csv(【ファイル名.csv】) |
データの確認・整理
df.head() | 先頭の5行を表示します。後ろからがいい場合は.tail() |
df.describe() | 全体の数、平均や標準偏差、最大値などをまとめて表示してくれます。全体を把握したいときに便利。 |
df.[[【列の名前】]] | 指定した列の名前だけを表示してくれます。 |
データの加工
df.query() | pandasのDataFrameの列に条件にあったデータを抽出して表示してくれます。 例えば年齢の列があって28歳以下を抽出する場合、()に(‘年齢 < 20’)とすると20歳以下を表示。 |
df.T | 列と行を入れ替え |
機械学習
df.fit() | |
df.predict() |
コメント