機械学習とクラスタリング手法による複数種類の正常値・異常値の同時分類技術

要約

水位の観測データに含まれる異常値を判定するため、自己組織化マップによる機械学習とクラスタリング手法を用いて複数種類の異常値と正常値を同時に分類する技術である。本手法は、時系列データ全般に適用可能であり、複雑なパターンを有する測定データの品質を高めることが可能になる。

  • キーワード : 異常検知、自己組織化マップ(SOM)、多数決法、多値分類、水位データ
  • 担当 : 農村工学研究部門・水利工学研究領域・水利制御グループ
  • 代表連絡先 :
  • 分類 : 研究成果情報

背景・ねらい

近年ICTの普及により、大量のデータの収集が可能になりつつあるものの、その活用にあたってはデータの品質が重要になる。一般に、観測データには、計測機器の不具合等で発生する複数種類の異常値、通常の特徴と異なり異常値と区別が難しい正常値を有する複雑なデータが多い。それぞれの種類を明確に認識できる検知技術によって、異常値を検知し除去することで、データの品質保証を行う必要がある。そこで、本研究では、機械学習の一種である自己組織化マップ(SOM)と多数決法に基づくクラスタリング手法を用いた、複数種類の異常値・正常値を同時に多値分類できる技術開発を行う。

成果の内容・特徴

  • 農業水利施設等で観測される水位データには、ある値が急激に変化する「スパイクノイズ」や連続する値が全体的にシフトする「スライドずれ」等の異常値のほか、平常時の水位変化「正常値A」と洪水時の水位変化「洪水イベント」のように複数の正常値がある。本手法では、本手法では、異常値と正常値を合計4つのラベルにより区別し、同時分類する、同時分類する(図1)。
  • 本手法では、データの識別対象の値(対象値)から複数の連続値(10個)を束ねて11個の連続データ(ベクトル)を作成(ベクトル化、図2a)し、SOMで学習する。次に、複数のベクトルが入る箱(ノード)を2次元マップ上に配置し、SOMによる学習で判定した類似性の強弱に従いベクトルをノードに分配し、ベクトルの関係を濃淡図で表現する(図2b)。
  • 2次元マップ上の各ノードに配置されたラベル付きベクトルの分布状態をクラスタリング手法によって境界を定める。クラスタリング手法には多数決法を採用し、ノードに配置されたベクトルのラベルが最多のものをノードの代表ラベルと定義し、これを推定値とする(図2c)。
  • 異常値を多く含むように人工的に生成した時系列データを用いて、従来型のクラスタリング手法(K-means法)と多数決法による分類精度を正解率と重み付きF1値(適合率と再現率の調和平均)で評価する。ラベルの分類状態を2次元マップ上で可視化すれば、多数決法では正常値Aを分類した青色領域と正常値Aを表す青色ドット色が一致しており、分類精度が高いことが分かる(図3)。また、多数決法を用いることでK-means法を用いる場合より、正解率で1.8倍、重み付きF1値で1.5倍の改善が見られる(表1)。

成果の活用面・留意点

  • ベクトルを構成する連続値の個数や2次元マップを形成するノード数は、対象データによって調整する必要がある。
  • 定点観測している時系列データあれば適用可能である。
  • 異常値の種類の判別は、機器自体及びその周辺に問題があることを示唆する。例えば、スパイクノイズは、センサーあるいは通信機器の不具合に起因する異常値と推察できる。一方、スライドずれでは、センサーの設置位置がずれたり、センサーが土砂に埋まったりする状況が想定され、管理者による早急な現地対応が可能となる。

具体的データ

図1 多値分類技術のイメージ図,図2 ベクトル化・SOM・クラスタリングの各概略図,図3 K-means法と多数決法の分類結果(正常値Aのみの比較)

その他

  • 予算区分 : 交付金、農林水産省(農林水産研究推進事業:AI等の活用による利水と治水に対応した農業水利施設の遠隔監視・自動制御システムの開発)
  • 研究期間 : 2021~2022年度
  • 研究担当者 : 木村延明、皆川裕樹、福重雄大、馬場大地((株)アーク情報システム)
  • 発表論文等 :
    • 木村、特願(2022年9月15日)
    • 木村ら(2023)土木学会論文集、79(22):22-22049