論文概要

クラスタ分析を用いた決定木学習手法の改善に関する研究
A Research on Decision Tree Learning Improvement Using Cluster Analysis
著者:天沼沙織(博士(前期)課程)

 データマイニングの代表的な手法の一つに,決定木学習がある.決定木学習とは教師あり学習である.このアルゴリズムは,複数の属性を持ち,分類されたデータ集合から分類規則を構築するアルゴリズムである.この分類規則は一つの属性の属性値とクラスラベルの関係から構築される.我々は新しいデータをこの分類規則を用いて分類する.データセットからルールを抽出するためにSVM(サポートベクターマシン)やANN(人工ニューラルネットワーク)などのいくつかの統計的手法や機械学習がある.しかし,多くのアナリストや研究者は,決定木学習を用いる.理由として分類規則の可読性があげられる.いくつかのツールでこのアルゴリズムを利用できる.であるから,マーケテリングや心理学,医療といったいくつかの研究領域でこのアルゴリズムが使用されている.
 しかし,決定木学習に関する問題がある.問題の一つに,このアルゴリズムを使用する際に,良い訓練データが必要であるといった問題がある.決定木の推定率は訓練データに依存してしまうためである.なぜなら,決定木を生成するデータ集合とテストデータに大きな違いがある場合,決定木は正常に動作しない.また,その決定木の推定率が適切ではない.そこで,学習前に良い訓練データを準備しなければならない.しかし,推定するデータが不明であるため,準備することは難しい.よって,訓練データの影響を管理するために,決定木学習アルゴリズムを改善する必要がある.この問題に対して,私はデータを細分化する前処理を加えた.しかし,問題の解決に至っていない.
 一方,決定木を構築する過程において,属性間の関係を考慮していない.属性間の関係を考慮することで,新たな観点でのデータ分類も可能となり,推定精度の向上が期待できる.本研究では,この点も着目し,従来の決定木学習では利用していない属性間の関係も活用して決定木の構築を試みる.
 私のアプローチでは2つの関係に基づいて決定木を生成する.1つは,各クラスと各属性との関係であり,もう一つは属性間の関係である.最初の関係は,従来の決定木学習アルゴリズムで用いられ,2つ目の関係はクラスタ分析で用いられている.本手法のアプローチポイントはこの2つ目の関係を使用することである.
 最初に,本手法では与えられたデータセットのエントロピーを算出し,エントロピーが閾値未満である場合は従来の決定木学習アルゴリズムを使用して子ノードを生成する.それ以外の場合は,クラスタ分析を用いて,与えられたデータセットの分類を行う.分類されたデータセット内のクラス間分散が閾値以上の場合は,生成された子ノードごとに再帰的に分類を行う.しかし,閾値よりも小さい場合,クラスタ分析での分類を取り消し,処理を終了する.
 本提案手法を評価するために,私は様々な特徴を持ったランダムデータを用いて実験を行った.実験結果として,本手法はいくつかのデータセットで従来手法の決定木学習アルゴリズムよりも有用である可能性をみられた.