テキストマイニング（text mining）

テキストマイニングとは、大量の文書（テキストデータ）を分析し、文書中に埋もれている傾向や特徴（有用な情報等）を発見するIT（information technology、情報技術）の手法です。つまり、文章を自然言語処理技術によって分割し、その出現頻度や出現傾向をIT技術により解析することを言います。

まず、解析する文章を「形態素」と呼ばれる単位に分解します。形態素とは、これ以上細かくしてしまうと、その意味が分からなくなってしまう最小の文字列、つまり「単語」（名詞、動詞、形容詞など）と考えていいと思います。例えば、「きれいなバラの花が咲いた」という文章は、「きれいな/バラ/の/花/が/咲い/た」と分解するのです。

次に、「同義語」をまとめます。例えば「バラ」と「薔薇」は同義語として、まとめます。

そして次の段階では、定量データへの変換を行います。「テキストデータ1行1行に、どのような単語があるのか」といった単語の「出現パターン」を取得し、統計処理が可能な定量データへ変換します。

最後に、前段階で抽出した出現パターンを基に統計処理を行います。これで各種分析作業のための準備が完了します。

テキストマイニングを利用した事例として、例えば、コールセンターに寄せられる履歴分析があげられます。私たちがコールセンターに電話をかけると、その問い合わせ内容等は音声録音され、次にデータベースに文字情報として保存されます。企業ではこれらのビッグデータをテキストマイニングという技術を使うことにより、分析することで、課題解決や業務の効率化等に役立つ隠れた種々の情報を導き出し、更なるサービスへとつなげて行くことができるようになります。同様に、テキストマイニングにより、アンケートや寄せられた苦情等を分析することもできます。

最近では、TwitterやFacebook等に代表されるソーシャルメディアのビッグデータを利用して、テキストマイニングを行い、活用している企業も多くなっています。

このように、テキストマイニングの対象としては、大量の文書はもちろんのこと、顧客からのアンケートの回答やコールセンターに寄せられる質問や意見、電子掲示板やメーリングリストに蓄積されたテキストデータなどが考えられます。

よく似た言葉に、「データマイニング」がありますが、データマイニングは顧客の購買傾向を分析する等の目的で使われています。

聖書「創世記」のテキストマイニング結果の一例