マイナンバー・ICTが拓くセキュアで豊かな社会
第12回 カフェ発 匿名性のはずなのに、データ追跡されるの?(後編)
ICT
2019.05.10
レビューサイトから個人を特定できる場合も
竹見は、コーヒーカップをソーサーに置くと、話を続けた。
「別のケースだが、データを一般に公開したようなケースもある。これも先ほどのマサチューセッツ州と同じように名前を消したデータを公開したんだ。これは、一見すると、名前を特定できなさそうなんだけど、別の情報と突合されるようなケースもあったんだ。
「どういうことですか?」
市倉が尋ねた。
「こっちは、こんなデータだよ。」
そういうと、竹見はもう1つ図を書きはじめた(図2参照)。
「これはねぇ。映画のDVDレンタル店が公開したDVDのレンタル記録なんだよ。」
「DVDのレンタル記録ですか。趣味とかばれるのは確かに嫌だけど、名前がばれないなら公開されても気にならないなぁ。」
市倉が言った。
「だって、さっきみたいに、生年月日や住んでいる郵便番号とか含まれてないだろうから、個人特定されないような気がしますし。」
「このレンタルの情報は、50万ユーザ、1億件分のデータから個人を識別できる情報を削除したデータを公開したんだ。もちろん彼らは、普段使っているようなIDではなく公開用の仮IDを生成して、仮ID、借りた映画名、映画に対する評価(レーティング)、登録日を公開したんだよ。」
「やっぱり、それだけだと個人特定できない気がしますね。」
「そう感じるよね。ところがある2人の研究者は、インターネット上にある映画レビューサイトのデータと付き合わせたんだよ。」
「映画のレビューサイト?」
「うん、そうなんだよ。映画の感想を書きこむようなサイトがあるだろう。このケースは、the Internet Movie Database という海外では有名な映画レビューサイトのデータを利用したんだ。」
「え? 人気のある映画はたくさんの人が借りるでしょうから、本当に同じ人がその映画の感想を書いたかどうかわからないじゃないですか。」
「うん、もちろん同じような映画を借りた人はたくさんいる。このデータの付き合わせでは、借りた順番をつかったんだ。」
「借りた順番?」
「そうなんだよ。DVDを借りた順番と映画レビューサイトで投稿した順番が同じものを探したんだよ。実際、2人分を見つけ出した。」
「DVDの順番ぐらいなら、別に突合されても気にしないけどね。」
市倉が言った。
「いやいや、市倉くん、借りた映画全部を公開されて本当にいいのかね?」
「もし借りていたとしても、名前は出してないだろうし。」
市倉は、少し後ろにのけぞりながら言った。
「レビューサイトに書く場合は、出しても問題ない映画だけを自分で選択して感想を書けばいいだろう。でも、例えば、ある特定の作品を借りていて、それだけを隠したいと思うとすると、今回のケースでも問題になると思わないかね。」
「そういうことは確かにあるかもしれませんね。」
市倉は、はっと気づいたように言った。
「でも、なんでこんなデータを公開したんですか?だって、DVDレンタル会社、あんまり得にならなそう。」
「あなたへのおすすめ」ができるワケ
「このケース、アメリカの大手DVDレンタル会社のNetflixという会社でね。」
「あ、最近日本に進出しましたね。最近はDVDもレンタル、というよりインターネット動画で見るようなことが多いから、Netflixも映画をインターネット経由で動画を見られるサービスを日本で開始したはずですが。前はDVDレンタルをしていたんですか。」
市倉が大学で流行っているサービスを思い出して言った。
「そう、その会社だよ。この会社は、2006年に匿名化されたDVDのレンタル履歴で、リコメンデーションのアルゴリズムを競わせるコンテストを開催したんだ。Netflix Prizeと言ったんだけどね。」
「リコメンデーション? 映画のお薦めサービスってことですか。」
「そう。レンタル店の場合は、借りてくれたお客さんに、次に何を薦めればいいのかを知りたかったんだよ。だから、個人ごとの趣味趣向を分析して、次にどんな映画を薦めることで、次のレンタルを促したかったんだね。この会社、リコメンデーションが目的だったので、あまりプライバシーとかを気にせずに公開したようだよ。ところが、レビューサイトのIDと突合されてしまった。レビューサイトでは本名を出している人も多いからね。この研究によって個人を特定される可能性を指摘されて、Netflix社はだいぶ批判を受けたんだ。」
「プライバシーに問題があるから、ってことですか?」
市倉が尋ねた。
「そうなんだよ。最終的に、Netflix社は米国連邦取引委員会の調査や法律家による訴訟を受けることになり、計画されていたNetflix Prizeの続編は中止に追い込まれてしまったんだよ。」
「一見、プライバシーを気にしなくてもよさそうなケースでも、個人を特定される可能性があるってことですね。」
「そうなんだよ。こういう項目が多いようなケースは、個人を特定されることがどうしても生じるよ。」
竹見が図を見ながら言った。
「ビッグデータ時代とか言われてますし、リコメンデーションとか今後も流行りそうですけど。」
「うん、こういう項目が多いデータは、ほとんど個人特定ができるという前提で動くべきだね。」
「そうすると、データを集めないという方向性になりそうですね。」
市倉が言った。
「いやいや。よく言っているけど、データを使うことで便利になることはたくさんあるから、こういうことがあるからデータは集めるべきではない、とかという議論は安易だと思うよ。」
竹見は、重ねて伝えた。
「データの使い方が適切ならよいってことなんですよね。いつも竹見先生おっしゃっていますが。」
絵美が言った。
「そうだね。データはどうしても集まってしまうだろうし、便利になるサービスもたくさんあるからね。データの収集、特に公開については、一長一短をよく考えて、必要な情報を必要な人が触れるようにすべきだね。ユーザのほうもちゃんと考えてデータを渡すほうがよいよ。データを渡すことによって、サービスが便利になる、と思って割り切るのは大事だし、逆に、便利にならないのにデータを渡すのはよくないしね。」
市倉と絵美は、竹見の話を聞きながら考え込んでいた。
「こういうデータの扱いはまだまだ難しい問題だが、社会全体で答えを見つけていけたらいいね。」
竹見は言った。