マイナンバー・ICTが拓くセキュアで豊かな社会
第12回 カフェ発 匿名性のはずなのに、データ追跡されるの?(後編)
ICT
2019.05.10
第12回 カフェ発マイナンバー・ICTが拓くセキュアで豊かな社会
匿名化データ
匿名性のはずなのに、データ追跡されるの?(後編)
複数のデータにより匿名性維持が困難に
ある日の夕方、都内文田区にあるカフェデラクレ(Café de la clé)。近くの大学も多くの講義が終わる時間帯。カフェでは、常連たちがカウンターに座っていた。大学を退職した竹見、大学生の市倉。カウンター内で、マスターの加藤とアルバイトの絵美が作業をしていた。
そんなカウンターでは、市倉がはじめたSNSで問題となっているプライバシーについて話をしていた。
そんなとき、竹見が、
「あ、昔のはなしだが、おもしろい事例があるよ。こんなことで本人が特定されることがあるっていうことがあってね。」
ということを言い、手元に図を書きはじめた(図1参照)。
「この図はね、2002年アメリカのSweeneyという人の研究で発表されたもので、ちょっとした実験の結果を出したものなんだけどね。」
「竹見先生、コーヒーできました。」
加藤は、竹見が入店時に頼んだコーヒーを差し出した。
「ありがとう。」
竹見がコーヒーを図を書いた紙の横においた。
「あ、マサチューセッツ州の研究ですね。」
コーヒーをおく際、ちらっと覗いたマスターの加藤が言った。
「お、さすが加藤君だね。」
「前に竹見先生が話してくれましたよ。興味深い話だったので、結構印象に残っています。」
「うん、その話だよ。」
そう言うと、市倉と絵美のほうに向かって、図を指さし説明を始めた。
「これは、マサチューセッツ州のデータを使った研究を説明した図なんだ。二種類のデータベースの項目を表している。」
「ええと、医療データと投票人名簿データってことですか?」
左と右の四角を指さしながら市倉が尋ねた。
「そうそう。この左側の四角、医療データをマサチューセッツ州が研究目的で公開したんだ。そのデータには、ここにあるように、性別、生年月日、郵便番号、民族、診断日、診療結果、経過処置、薬、料金という項目が含まれていた。」
「ふむふむ。医療データって言われると、病気や薬なんかのデータですから、プライバシーが特に気になりそうなデータですね。でも、マサチューセッツ州は、氏名を削除していたんですか。」
絵美が言った。
「そうそう。そうなんだよ。もともとの医療データにはもちろん含まれていたが、研究目的で公開する際、氏名は削除したんだ。」
竹見が医療データから右に出る矢印の下側を指さしながら言った。
「右側の四角、投票人名簿データというのは?」
市倉が、右側の四角を指さしながら尋ねた
「これはね、大統領選挙の投票人名簿なんだよ。」
竹見がコーヒーに口をつけた。絵美がふと気づいた、という顔をしながら言った。
「あ、アメリカでは、大統領選挙の投票人名簿が公開されている、って聞いたことある。」
「へー、名簿が公開されるのかぁ。」
市倉が絵美に向かって尋ねた。
「そうそう、ニュースで見たことあるんだけど、たくさんのグループが自分が指示している人に投票して下さい、って電話をするじゃない? その電話をするための元データが投票人名簿らしいよ。」
「うん、そのとおり。米国では投票者を明確にするために、投票人の名簿データは公開されているし、購入が可能なんだよ。」
竹見が言った。
「その投票人名簿には、氏名、性別、生年月日、郵便番号、住所、登録日、会員政党、前回投票日という項目の情報が記載されていた。」
「こっちのデータには氏名が含まれて公開されていたんですね。」
絵美が言った。
「ふむふむ。つまり、医療データは、氏名を削除していたが、投票人名簿データには、氏名が含まれていたってことですね。」
市倉が考えながら言った。
「竹見先生の図から考えると、その2つのデータをつきあわせたってことなんですよね。」
市倉は続けた。
「そのとおり、市倉君、医療データには氏名がなかったよ。」
竹見がニコニコしながら言った。
「で、医療データの氏名がわかってしまったということだと思うんですが、どうやったんですか?」
「うん、医療データと投票人名簿の共通項目があっただろう。」
「性別、郵便番号、生年月日ですね。」
市倉は、指差しながら言った。
「 そうそう。その共通項目でマッチングをしたんだ。」
「そんなことで名前がわかってしまったんですか? だって、生年月日が同じ人なんて、たくさんいそうだし。」
絵美も不思議そうに言った。
「そうだよ。誕生日が同じ人は、州の中にたくさんいるだろう。一年は365日しかないからね。当たり前だが、データ内に365人以上いれば、必ず同じ誕生日の人はいるよ。」
「そうですよね。医療データだってそれ以上の人数がいたでしょうし。」
「そのとおりだ。でもね、今回のケースでは3項目があるだけで、実は州知事の名前がわかってしまったんだ。つまり、州知事の病気などが含まれた医療データのレコードがわかってしまったんだよ。」
竹見が言った。
「えー。」
「ほー。」
複数の該当者があっても1人の名前を特定できてしまう
市倉も絵美の二人とも驚いた顔をした。
「州知事ですか。」
絵美が重ねていった。
「うん、そうなんだ。その医療データからね、知事と同じ生年月日のレコードが6人いたんだよ。そのうち3人が男性で、郵便番号から1人に特定したんだ。」
「確かに言われてみると、同じ郵便番号の地域にすむ人に同じ生年月日の人がいるかどうかって、わからないですね。」
「うん、このくらい項目があれば、人を特定できるってことだね。」
「なんだか、怖いですね。今回の場合は、州知事ですか。知事の病気によっては、投票しなくなる人とかもでそうだし。」
絵美は、考え深そうに言った。
「そうだね。投票行動にも影響が出るだろう。悪影響がでるようなことも否定できないね。」
「そう考えると、こういうデータって、不用意に公開とかしてはいけませんね。特に扱いを考えなければ。」
「データって、名前を消せば大丈夫とは限らないってことかぁ。」
市倉も言った。
「このマサチューセッツ州のデータの場合は、研究目的にしか公開していなかったので大きな問題にはなっていないんだがね。」
竹見はそういうと、コーヒーに口をつけた。