ngram

指定したフィールドの文字列を連続するn文字単位（n-gram）に分割してトークンリストを出力します。テキスト類似度比較、異常ドメイン検出などの文字レベルの特徴抽出に活用します。

ngram n=INT field=FIELD

フィールド	タイプ	説明
`ngrams`	配列	n-gram分割結果のトークンリスト。入力文字列の長さがn以下の場合は元の文字列を単一要素として含みます。

エラーコード	メッセージ	説明
40810	Specify n option in the ngram command.	`n`オプションが指定されていない場合
40811	The value of n for the ngram command must be specified between 1 and 10.	`n`値が1未満または10を超える場合
40812	Specify field option in the ngram command.	`field`オプションが指定されていない場合

該当なし

ngramコマンドは、入力レコードの指定したフィールド値をn-gram方式で分割します。n-gramは文字列から連続するn文字で構成された部分文字列のリストです。

例えば、n=3で入力文字列が"google"の場合、結果は["goo", "oog", "ogl", "gle"]となります。

入力フィールド値が文字列でない場合、そのレコードは変換なしでそのまま通過します。入力文字列の長さがn以下の場合は、元の文字列を単一要素として含む配列をngramsフィールドに割り当てます。

生成されたn-gramトークンリストはtfidfコマンドの入力として活用したり、ドメイン名の文字パターンを分析するために使用できます。