Bag of Words
テキストを「単語の出現回数のベクトル」として表現する手法。各次元が1つの単語に対応し、その値がテキスト中での出現回数となる。単語の順序や文脈は無視されるが、シンプルで強力なテキスト表現として広く使われる。文書分類や著者識別などのNLP(自然言語処理)タスクの出発点として定番。
「ユニークな単語の登場回数によるBag of Words表現で1310次元の高次元分類問題」