아마존은 개인 정보 보호 정책(GDPR; General Data Protection Regulation)을 위반하여 EU로부터 1조 200억 원(7억 4,600만 유로)의 과징금을 부과 받았습니다. 2018년부터 유럽에서 시행된 개인 정보 보호 정책은 세계에서 가장 높은 수준의 보호 정책이며, 위반 기업은 최대 전 세계 매출의 4%와 268억 원(2000만 유로)중 높은 금액을 과징금으로 납부해야 합니다. 워낙 처벌의 강도가 세다 보니 데이터를 다루는 기업이라면 반드시 숙지하고 점검해야 되는 기준이 되었습니다.
이 정책은 일명 '걸리면 죽는 법'으로 제정 때부터 주목하고 대비했음에도 불구하고, 기업 들은 기술적/제도적 미비 등 다양한 이유로 1100여 건의 과징금을 납부하였습니다. 이 중에는 위에 언급된 아마존을 포함하여 구글(2019년 670억 원), 메타(2018년 228억 원) 등 업계를 선도하는 기업들도 다수 포함되어 있습니다. 책의 서문에서도 나오듯 오라일리 데이터 뉴스레터에서 또한 보안 및 개인 정보보호 분석 도구가 대세라고 발표(2019.1.2)하는 등 특히 데이터 기반 AI 기술을 사용한다면 이제 당연히 개인 식별화에 대한 우려와 데이터 익명화 방법, 법률과 규정 및 관련 데이터 후처리 도구를 고려해야 합니다.
데이터 중 식별 가능한 내용이 포함되어 있을 경우 이를 제거하면 간단할 것 같지만, 예를 들어 이름을 가명으로 처리할 것인지 이름을 성만 남기고 김ㅇㅇ와 같이 처리할 것인지 아예 삭제할 것인지와 같이 비즈니스 이익을 고려한 고민이 필요합니다. 익명화 과정을 통해서 유용한 데이터를 생성하는 법칙과 절차의 숙고가 필요하고, 노하우가 필요하며, 정보 노출 위험과 이익 사이의 균형잡기가 필요하고, 익명화를 통해 데이터는 보호하되 목적과 데이터 주체의 정체성은 남겨두어야 합니다. 이 책은 이런 목적을 달성하기 위한 분석적 내용으로 160페이지의 적은 분량에 단계별 절차와 노하우를 담고 있습니다. 1~3장을 통해 용어 설명 및 개괄을 하고 4, 5, 6장을 통해 데이터 처리단계를 정립하고 파이프라인 구축 방법을 설명합니다. 마지막으로 7장을 통해 정리를 하고 있습니다.
각 챕터에 따른 주요 내용은 아래와 같습니다.
1장 : 용어 설명 및 주요 사례
2장 : 주요 개념 설명 및 식별 가능성 스펙트럼 이해
3장 : 공유의 맥락을 설명하는 거버넌스 프레임워크
4장 : 개인 정보 보호를 염두에 둔 시스템 설계, 보호 기능 구축 방법
5장 : 가명화 등 데이터 익명화 작업 방법
6장 : 익명화 데이터 호수 구축 방법
7장 : 데이터를 안전하게 사용하기 위한 책임과 윤리
책의 초반부에 나오는 매우 중요한 단어인 '식별 가능성 스펙트럼(spectrum of identifiability)'이 직관적으로 이해가 가지 않았습니다. 책 전체적으로도 가장 중요한 단어이기 때문에 의미를 알고 있어야 합니다.
의미는 간단합니다. 데이터를 식별할 수 있는 단계부터 점차 그렇지 않은 단계로 나열해 놓아 무지개(스펙트럼)의 모습과 같은 형태를 말합니다. 예를 들어 [식별화(Identification) <-> 가명화(Pseudonymization, Deidentificatoin) <-> 익명화(anonymization)]와 같은 모습입니다.
명확히 식별 가능한 데이터 << Personally identifiable Data << De-personalised Data >> Anonymous Data >> 식별 불가능한 데이터
아래 그림은 이 개념을 더 이해하기 쉽게 그림으로 표현해 주고 있습니다.
1, 2장에서는 주요 용어 설명을 합니다. 또한 데이터 익명화라는 법률(?) 분야의 특성상 동일하거나 미묘하게 다른 것 같은 두 개념의 차이를 분명하게 만들어 주고 정확하게 구분하여 도서를 읽을 수 있게 만들어 줍니다. 예를 들면 비식별화와 익명화의 차이점 등을 설명합니다.
3장부터는 수집된 데이터의 익명화 수준을 결정하는데 요구되는 요소나 판단 방법을 설명합니다. 적절히 익명화하는 이론적 판단 방법 들을 프레임워크라는 용어로, 최종 익명화 단계까지의 흐름을 파이프라인이라고 표현하였습니다. 프레임워크는 2017년 플렉스 리치(Felix Ritchie)의 논문으로 발표한 파이브 세이프(Five safes)를 설명합니다.
4, 5, 6장에서는 데이터를 수집하고 공유하며 직접 식별자를 제거하고 간접 식별자를 변형하는 방법 등 데이터를 처리하는 방법에 대해 다루고, 가명화 등을 통한 익명화에 대한 상세한 설명을 합니다.
마지막으로 7장에서는 실제 기술에 직접 적용했을 때 사례와 윤리적인 부분 등 기술적인 과제와 원칙을 다루고 있습니다.
파이프라인과 프레임워크라는 단어로 인해 실질적으로 데이터를 익명화하는 기술적인 상세 방법을 설명하는 것으로 오해한다면 책이 다루고 있는 내용에 다소 실망할 수 있습니다. 이 책은 익명화를 위한 이론적 프레임워크와 파이프라인을 충실히 설명하고 있습니다. 필체가 그런건지 주제가 그런건지(둘다 인것 같은데) 다소 딱딱하게 느껴질 수 있습니다.
우리가 IT 기술 기반의 제품 서비스한다면 필수불가결하게 수집되는 식별 정보에 대하여 법적 익명화 수준을 반드시 고려해야 하며, 이를 위해 법률적인 내용을 생각하지 않을 수 없습니다. 이 책은 이에 대한 가벼운 시작점으로 손색이 없으며 분량 또한 부담되지 않은 좋은 시작점이 됩니다.
"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."