リーガルテック活用の最前線―第５回言語データの解析（『リーガルテック活用の最前線―AI・IT技術が法務を変える』より）

言語データの解析

リーガルテック活用の最前線―第５回　言語データの解析 (㈱FRONTEO編著／弁護士ドットコム㈱・櫻庭信之著『リーガルテック活用の最前線―AI・IT技術が法務を変える』より)

新聞や雑誌でも報じられているように、近年のリーガルテック分野の発展は目を見張るべきものがあります。このたび、（株）ぎょうせいは、『リーガルテック活用の最前線―AI・IT技術が法務を変える』を発刊しました。リーガルテックの最新動向から企業内不正調査、知財調査業務、契約業務など具体的な活用事例まで、さまざまな具体例を示しながら、わかりやすく解説する書となっています。第５回は本書第３章から「言語データの解析」の部分を抜粋してお届けします。

言語データの解析

　企業内不祥事（談合）に際して、担当者のコンピュータ内の膨大な電子メールの中から事案の関連性の高いものを抽出する作業を例にして解説する。まず、KIBIT（注：FRONTEO社によって文章解析を目的に開発されたAIである）に学習させるための電子メールデータを用意する。談合を行うため同業他社の担当者を飲み会に誘う「見つけたい」電子メールと、問題のない通常の社内懇親会に誘う「見つけなくてよい」電子メールの2種類である。この2種類のデータを「見つけたい」「見つけなくてよい」という属性も含めてKIBITに学習させ、電子メールの文章を「形態素」に分ける。「形態素」とは、文章の中で意味をもつ言語の最小単位である。

　KIBITは、伝達情報量を利用し、電子メールで与えられた形態素のうち、「見つけたい」電子メールのみに含まれているものを「重要度が高い」、「見つけなくてよい」と「見つけたい」に両方あるものを「重要度が低い」とみなす。

　そして学習した電子メールの形態素の出現頻度とあわせて計算し、0から1点の間で「重み」を表す点数をつけていく。上記の例でいえば、談合の打合せのための飲み会は、他人に話を聞かれない場で行う可能性が高いことから「見つけたい」電子メールだけにある「個室」という形態素は点数が高くなり、重要な成分となる。一方で、「見つけたい」「見つけたくない」の両方の電子メールにある「飲み」や「居酒屋」の形態素は点数が低く、出現頻度の高い「飲み」は、特に点数が低くなる。

　こうして電子メールを1通ごとにスコア化し、スコアの高い順にデータを並び替えたうえで、スコアの高い、つまり談合の打合せのための電子メールである可能性が高いものを確認する。それにより、日付順や受信者ごとに電子メールを確認していくよりも証拠の発見が速やかにできる。また、一定の点数以下の電子メールは確認しなくてよいことにすれば、すべての電子メールを確認する必要がなくなり、調査時間の大幅な短縮が実現できる。

　ここでのポイントは、「見つけたい」電子メールの情報だけでなく、「見つけなくてよい」という電子メールの情報もあわせて学習させるところにある。これにより、KIBITは、「関連性あり」「関連性なし」の判断ができ、点数をつけるための「重み」付けもAIが自ら行う。また、学習にあたって、キーワードを入力する必要もなく、前述の例でいえば、電子メールそのものを学習させることで、文章からAIが判断していく。

　たとえば、調査対象のコンピュータの電子メールには、「飲み」という言葉が6回出てきたが、「飲み」という言葉は、「関連あり」の文章に「2回」出てきた一方で、「関連なし」の文章にも「4回」出てきた。このことから、「飲み」という言葉は、「関連あり」を判断するための重要度は低いと判断される。しかし、「個室」という言葉は、電子メールに2回出てきたが、いずれも「関連あり」の電子メールに出てきて、「関連なし」の電子メールには一度も出てこないことから、「関連あり」の判断にあたって重要なキーワードであると判断される。

　もちろん、伝達情報量だけで言葉の重要性（重み）を決めているわけではなく、さまざまな要素を加えて、最終的に、形態素ごとの重み（ウェイトとよんでいる）を決めている。

　結果、形態素解析がされてそのウェイトが決められ、文書のスコアが計算される。最高値が1万点で、ゼロから1万点の幅で関連性が表示される。KIBITは少量の教師データで特徴を学習できるため、大量のデータを解析するためのスーパーコンピュータのような大規模な設備は必要なく、ノートパソコンでも十分に活用できる。

＊本稿は、（株）FRONTEO編著／弁護士ドットコム㈱・櫻庭信之著『リーガルテック活用の最前線―AI・IT技術が法務を変える』の一部を抜粋したものです。