機械学習のデータセット
概要
機械学習のデータセットは、機械学習モデルを作成する前に学習に使用するログデータを準備する機能です。セキュリティアナリストは ポリシー > 機械学習のデータセット でデータセットを定義し、モデルが学習する入力データを一貫して管理できます。
実際の運用では、まず 分析 > クエリ または 分析 > ピボット で使用するデータを探索し、必要なフィールドだけを残すか前処理してから機械学習のデータセットとして保存します。その後、保存したデータセットを機械学習モデルで選択して学習に使用します。文字列フィールドをそのまま学習に使用することが難しい場合は、tfidfのようなクエリコマンドで数値ベクトルに変換する方法も検討できます。
管理者を含むすべてのユーザは機械学習のデータセットの一覧と内容を閲覧できます。管理者とクラスタ管理者は機械学習のデータセットを追加、編集、削除できます。
考慮事項
機械学習のデータセットは、実際の運用環境で発生するデータをできる限り反映するよう準備することが重要です。データセットを作成する際は以下の点を考慮してください。
- 多様な情報の含有
- 時間、場所、ユーザ情報、イベントタイプ、成功/失敗など、実際の運用環境に現れるさまざまな特性が含まれるようデータを準備してください。
- 教師あり学習の目的変数の選定
- ランダムフォレストなどの教師あり学習モデルを作成するには、予測対象となる目的変数フィールドが必要です。教師あり学習用のデータセットを作成する際は、目的変数も一緒に含めてください。
- データの前処理
- データのエラーや極端な値があれば除去または補正し、フィールド間の値の範囲の差が大きすぎる場合は正規化やスケーリングを適用してください。
- 文字列のベクトル化
- 一般的な文字列はそのまま学習することが難しいため、数値化が必要です。必要に応じて
tfidfのようなクエリコマンドでベクトル化してください。 - データの品質と量
- データは正確性、完全性、一貫性を備えている必要があります。正常パターンと異常パターンを十分に含められるよう、十分な量を確保することをお勧めします。
- 過学習の防止
- 特定の訓練データに過度に適合しないよう、クロスバリデーションや正則化などの手法も合わせて検討してください。
- 変化するパターンへの対応
- セキュリティ脅威のパターンは時間とともに変化する可能性があるため、運用中のモデルは定期的に再学習させることをお勧めします。
機械学習のデータセットの一覧表示/検索
ポリシー > 機械学習のデータセット で機械学習のデータセットの一覧を表示したり検索したりできます。
- 名前: 機械学習のデータセットの名前です。名前をクリックするとデータセットの詳細画面に移動します。
- 説明: 機械学習のデータセットの用途や構成に関する説明です。
- 件数: 現在の機械学習のデータセットに含まれるデータの件数です。
- 更新日: 機械学習のデータセットを作成した、または最後に更新した日付です。
一覧から特定の機械学習のデータセットを検索するには、ツールバーの検索ツールを使用してください。検索ツールは入力した単語が 名前 または 説明 に含まれる機械学習のデータセットを検索して表示します。大文字・小文字は区別しません。
一覧のダウンロード
機械学習のデータセットの一覧をローカルPCに保存するには、ツールバーの
をクリックし、希望するファイル形式を選択してください。
一覧のリフレッシュ
機械学習のデータセットの一覧を最新情報に更新するには、ツールバーの
をクリックしてください。
機械学習のデータセットのエクスポート
機械学習のデータセットをバックアップしたり別の環境に移したりするには、ファイルとしてエクスポートできます。
- 一覧でエクスポートする機械学習のデータセットの行のチェックボックスを選択します。
- ツールバーの エクスポート をクリックします。
- 機械学習のデータセットのエクスポート ダイアログでファイル名を設定し、OK をクリックします。
機械学習のデータセットのインポート
以前エクスポートした機械学習のデータセットファイルを再登録するには、インポート機能を使用してください。
- ツールバーの インポート をクリックします。
- 機械学習のデータセットのインポート ダイアログで ファイル選択 をクリックし、以前保存した機械学習のデータセットファイルを選択します。
- ファイルを選択したら OK をクリックします。
機械学習のデータセットの追加
機械学習モデルに使用する入力データを繰り返し再利用するには、機械学習のデータセットを追加してください。
-
ポリシー > 機械学習のデータセット でツールバーの 追加 をクリックします。
-
機械学習のデータセットの追加 画面で項目を設定します。
- 名前: 機械学習のデータセットを識別する固有名です(最大50文字)。
- 説明: データセットの目的や構成基準を記述する説明です(最大2,000文字)。
- クエリ文: 機械学習のデータセットを生成する際に実行するクエリ文です。モデルの学習時にこのクエリで生成されたフィールド値が使用されます(最大10,000文字)。
-
入力内容が正しいか確認し、OK をクリックします。
機械学習のデータセットの閲覧
機械学習のデータセットに実際にどのようなデータが含まれるかを確認するには、データセットの詳細画面を閲覧してください。
機械学習のデータセットの編集
機械学習のデータセットの説明を最新の運用基準に合わせて整理するには、編集機能を使用してください。
- 一覧で編集する機械学習のデータセットの 名前 をクリックします。
- 機械学習のデータセットの編集 画面で情報を編集し、OK をクリックします。編集できる属性は 説明 のみです。
機械学習のデータセットの削除
使用しなくなった機械学習のデータセットを整理するには、削除機能を使用してください。
- 一覧で削除する機械学習のデータセットの行のチェックボックスを選択します。
- ツールバーに表示される操作メニューで 削除 をクリックします。
- 機械学習のデータセットの削除 ダイアログで削除する機械学習のデータセットの一覧を確認し、削除 をクリックします。削除しない場合は キャンセル をクリックします。



