リーガルテック活用の最前線―第4回 データの分析─キーワード検索(『リーガルテック活用の最前線―AI・IT技術が法務を変える』より)
キャリア
2020.11.09
リーガルテック活用の最前線―第4回 データの分析─キーワード検索 (㈱FRONTEO編著/弁護士ドットコム㈱・櫻庭信之著『リーガルテック活用の最前線―AI・IT技術が法務を変える』より)
新聞や雑誌でも報じられているように、近年のリーガルテック分野の発展は目を見張るべきものがあります。このたび、(株)ぎょうせいは、『リーガルテック活用の最前線―AI・IT技術が法務を変える』を発刊しました。リーガルテックの最新動向から企業内不正調査、知財調査業務、契約業務など具体的な活用事例まで、さまざまな具体例を示しながら、わかりやすく解説する書となっています。第4回は本書第3章から「分析―キーワード検索」の部分を抜粋してお届けします。
データの分析─キーワード検索
データ処理を行ったデータを文字コード等に留意しつつ解析したうえで、訴訟事案との関連を確認するためにデータを分析していく。その前に、関連するデータを抽出するために、キーワードにより検索する作業を行う。
1 ブーリアン検索
キーワード検索にあたっては、まず、ブーリアン検索というANDやORあるいはNotによる検索条件を設定する。たとえば、東京で行われた会議について検索する場合には、東京を意味する言語(「東京」OR「Tokyo」OR「トウキョウ」OR「とうきょう」)を「OR」でいずれかの表記が入力されているものが検索されるようにする一方、「会議」を意味する言語(「会議」OR「打合せ」OR「meeting」OR「MTG」)といったキーワードを「OR」でつなぎ、そのうえで、その双方を「AND」でつなぐことで、「東京」を意味するキーワードと「会議」を意味するキーワードが両方とも存在するデータを検索することになる。
日本企業が米国の訴訟に巻き込まれ、ディスカバリの必要が生じて、日本の本社で関連書類を提出しなければならなくなった場合、米国の弁護士が、上記のような検索条件を作成して条件に該当する文書を準備するよう指示されることが多い。キーワードは膨大な数に上り、1000以上のキーワードを扱うこともある。
2 近傍検索
ブーリアン検索による場合、たとえば、「AND」という条件であれば、検索対象となっている2つのキーワードが、100頁の書類の1頁目と100頁目にある場合にも検索される。しかし、2つのキーワードの間が離れすぎている場合、この100頁の書類の内容を確認しても訴訟事案とはかかわりのない場合が多い。つまり、複数のキーワードは、1つの文章や段落の中で相互に関連をもって使用されていないと、意図に沿った形での検索とならないことがある。書類の中で、検索したキーワードが偶然すべて使用されていても、それらのキーワードに関連性がない場合は、検索される書類の量がいたずらに増え、確認に膨大な時間を要することになる。
こうした事態を防ぐために、近傍検索という方法を用いる。すなわち、検索すべきキーワード間の距離を文字数として検索条件とするのである。たとえば、「東京」と「会議」をキーワード検索するにあたって、これらのキーワードが100文字以内に両方含まれていることを条件とすることができる。
3 正規表現
また、「京都」というキーワードを検索する場合、日本語の特性上、部分一致で検索され「東京都」も検索されてしまうことがあるが、いうまでもなく両者は全く異なる地名のキーワードである。そこで、正規表現とよばれる演算子を用いた検索手法を用いることにより、「京都」の前に「東」のつかない場合のみを検索させることが可能となる。正規表現は電話番号やクレジットカード番号、マイナンバーといった特徴的な桁数や表記の数字の並びを検索して調査する際にも使用される。
*本稿は、(株)FRONTEO編著/弁護士ドットコム㈱・櫻庭信之著『リーガルテック活用の最前線―AI・IT技術が法務を変える』の一部を抜粋したものです。