リーガルテック活用の最前線―第6回 AIレビューシステム(『リーガルテック活用の最前線―AI・IT技術が法務を変える』より)
キャリア
2020.11.25
リーガルテック活用の最前線―第6回 AIレビューシステム (㈱FRONTEO編著/弁護士ドットコム㈱・櫻庭信之著『リーガルテック活用の最前線―AI・IT技術が法務を変える』より)
新聞や雑誌でも報じられているように、近年のリーガルテック分野の発展は目を見張るべきものがあります。このたび、(株)ぎょうせいは、『リーガルテック活用の最前線―AI・IT技術が法務を変える』を発刊しました。リーガルテックの最新動向から企業内不正調査、知財調査業務、契約業務など具体的な活用事例まで、さまざまな具体例を示しながら、わかりやすく解説する書となっています。第6回は本書第3章から「AIレビューシステム」の部分を抜粋してお届けします。
AIレビューシステム
たとえば、企業内不正が疑われる事案があり、社内の文書を調査・確認する作業を行うことになったとする。対象文書は、およそ10万ドキュメント存在する。まず、その中から、AIに学習させるべきデータの候補を抽出する(KIBITでは、これを「教師データ」候補の抽出とよぶ)。無作為にサンプルとなるデータをいくつか選別するが、どのくらいの数を抽出するかは、信頼度(Confidence Level)や許容誤差(Margin of Error)により統計的にある程度母集団を反映できるサンプル数を計算する。10万ドキュメントであれば、目安としては、2000ドキュメント程度のサンプル数が必要となる。このサンプルを弁護士が確認し、「関連あり」と「関連なし」に分類し、その結果を教師データとしてAI(KIBIT)に学習させモデルを作成する。その後、残りの9万8000ドキュメントについて、学習した教師モデルにより「関連あり」「関連なし」のスコアリングが可能となる。そのうえで、点数が高いものについて、確認していく。
次に、一定のスコア以下のものはレビューをしないと判断し、対象文書のカットオフを行う。どのスコア以下をカットオフするかの基準となるのが、エルージョン率(Elusion Rate:カットオフをする予定の文書の中からいくつか無作為にサンプルをとって確認を行い、その結果、「関連あり」の文書が確認された割合)である。エルージョン率が一定の割合以下であれば、スコアリングを信頼し、カットオフのスコアとするというものである。エルージョン率は母集団全体に占める「関連あり」の割合(Richness)によって変動し、ディスカバリの場合は原告・被告双方の代理人弁護士同士の合意によって決まる。また、企業内不正調査の場合には取り扱っている調査事案の性質や許容される調査期間によっても基準は変わってくる。
スコアリングを行い、点数の高い順に並べ、カットオフしたものを除いたものについては、実際に人間がレビューする必要がある。この段階では、スコアの高い文書、中程度の文書、低い文書に分けて、適した人間に適した文書のレビューを割り当てる。たとえば、レビュー経験が豊富な者、あるいはレビューを専門に行っている者が、重要な文書の見落としを防止するため関連性の高い文書が集まっていると考えられるスコアの高い文書を確認し、逆に低い文書については、経験が浅い者あるいは補助的にレビューに参加する者がレビューを行う。最後にQC(Quality Control)を行い、プロジェクト全体のレビューの品質を担保する。
上記AIレビューシステムを用いて作業を行うことで、これまでのドキュメントレビューと比べて時間と費用の大幅な節約ができ、かつ高品質のレビュー結果が得られる。
*本稿は、(株)FRONTEO編著/弁護士ドットコム㈱・櫻庭信之著『リーガルテック活用の最前線―AI・IT技術が法務を変える』の一部を抜粋したものです。