決定木についてのメモ

これはメモ

→ 可視化しやすい、説明がしやすい

→ 始めやすい。「今あるデータをとりあえず分類してみる」という始め方が出来る

→ 学習データにフィットしすぎて、汎用性に欠く、テストデータで性能を発揮できない場合がある

→ ？？？

→ 例えば、異常検知とかは不得意そう（普通、異常値のデータの方が圧倒的に少ないので）

→ 例えば、昭和の小学生の身体測定のデータを学習データとしてモデルを作成し、平成の小学生の身体測定結果を分類しようとすると上手くいかなそう

→ ？？？

if-thenのルールが作成できる。
e.g. 工場のセンサー値から製品の故障を予測したい場合に、どのセンサーが異常の原因７日といった、特定の分類結果に至った条件が必要とされる場合に有効

分類木とは

田屋さんの回（ランダムフォレスト）でも紹介された、ジニ係数について補足。

決定木（の各特徴量の判定）の性能を評価する係数

特定のルールに対して、分類した結果のグループの'キレイさ'を評価するイメージ

0	↔	1
Gini係数が小さい	↔	Gini係数が大きい
うまく分類が出来ている。いい特徴量	↔	分類が雑。（分類結果に色々なデータが混じっており、結局、大して分類できていない状態）

haagiiiな日記