リーガルテック活用の最前線―第３回データの処理（『リーガルテック活用の最前線―AI・IT技術が法務を変える』より）

データの処理

リーガルテック活用の最前線―第３回　データの処理 (㈱FRONTEO編著／弁護士ドットコム㈱・櫻庭信之著『リーガルテック活用の最前線―AI・IT技術が法務を変える』より)

新聞や雑誌でも報じられているように、近年のリーガルテック分野の発展は目を見張るべきものがあります。このたび、（株）ぎょうせいは、『リーガルテック活用の最前線―AI・IT技術が法務を変える』を発刊しました。リーガルテックの最新動向から企業内不正調査、知財調査業務、契約業務など具体的な活用事例まで、さまざまな具体例を示しながら、わかりやすく解説する書となっています。第３回は本書第３章から「データの処理」の部分を抜粋してお届けします。

データの処理

　データを「特定」し、「保全」「収集」したものを「処理」する工程について解説する。
　①ユーザ作成ファイル抽出、②メールアーカイブファイル展開、③圧縮ファイル展開、④テキスト情報抽出、⑤メタデータ抽出、⑥検索用インデックス作成、⑦メールファミリー保持などの工程がある。

１　ユーザ作成ファイル抽出

　まず、「収集」されたデータについてユーザ作成ファイルを抽出する。

　コンピュータの中には明らかに訴訟とは関係のないデータも多くある。たとえば、WindowsというOS（オペレーティングシステム）には、OSが起動するためのプログラムファイルや設定ファイルが含まれる。一方、調査の対象となるのは人によって作成されたドキュメントである。そこで、これらのシステムファイルを排除し、ユーザの作成したオフィスファイルや電子メールだけを抽出する必要がある。

２　メールアーカイブファイル・圧縮ファイルの展開

　メールアーカイブファイルや圧縮ファイルの展開を行う。コンピュータの中は、Zipファイルに代表されるように、いくつかのファイルが圧縮されて保存されている場合が多い。電子メールも、1つのメールアーカイブファイルの中に数万通の電子メールメッセージや添付ファイルなどのレコードがまとまって保管されている。しかし、1つにまとめられてしまっている状態では調査はできず、実際には、1つひとつドキュメントを精査することが求められる。そこで、圧縮ファイルや電子メールのアーカイブファイルを展開して、それぞれのドキュメントを調査できるように分解する。電子メールについては、本文のデータと添付ファイルのデータをそれぞれ調査できるように処理する。なかには、電子メールの添付ファイルに電子メールが添付されており、さらにその電子メールにZipファイルが添付されているなど、5層にも6層にもなっているものもある。こういった場合においても、深い層のドキュメントも調査できるように分解していく。実際には、各ファイルを展開するためのシステムがあり、自動的に処理が行われる。

３　テキスト情報の抽出

　テキストの内容を精査するために文字情報のみをまとめて抽出する。テキスト情報をもたないPDFファイルなどはOCR処理を行い、テキスト情報を抽出する。抽出されたテキスト情報を用いてキーワード検索やAIによる分析を行う。

４　メタデータの抽出

　メタデータの抽出とは、コンピュータの中にある視認できるテキストだけでなく、ファイルのプロパティに記録されている属性情報などを抽出することである。属性情報とは、たとえば、ファイルを更新した更新者の情報や作成日時、最終更新日時のような時間情報といったものである。

５　検索用インデックスの作成

　抽出されたテキスト情報を用いてそれらを検索するための言語のインデックスを作成する。

６　メールファミリー保持

　上記のとおり電子メールは、本文と添付ファイルとを展開して、個別の内容を精査できるようにするが、本文と添付ファイルを合わせて電子メールメッセージという1つのグループとして扱われる。ディスカバリで電子メールを提出するときは、弁護士の方針にもよるが、添付ファイルが重要な証拠であっても、添付されていた電子メールの本文も一緒に提出する必要がある。そこで、個別の精査のために分解する際に、本文と添付ファイルの関連性が失われないように、データベースの中でそれぞれの関係性がわかる状態にしておく。こういった本文と添付ファイルの関連付け処理もシステム内で自動的に行われる。

＊本稿は、（株）FRONTEO編著／弁護士ドットコム㈱・櫻庭信之著『リーガルテック活用の最前線―AI・IT技術が法務を変える』の一部を抜粋したものです。