AI 시대 속 이미지·영상·음성·텍스트 등 ‘비정형데이터’ 가이드라인 나왔다

개인정보위, ‘가명정보 처리 가이드라인’ 대폭 개정해 새로운 기준 제시
의료·교통·챗봇 등 분야별 7종 시나리오 통해 가명정보 활용 전 과정 상세 안내

개인정보보호위원회는 이미지, 영상, 음성, 텍스트 등 인공지능(AI) 시대 기술개발의 핵심 재료인 ‘비정형데이터’에 대한 가명처리 기준을 새롭게 마련했다고 4일 밝혔다.

개정된 가이드라인에는 비정형데이터를 가명처리하고 활용하는 과정에서 특수하게 나타날 수 있는 개인정보 위험을 사전에 확인하고 통제하기 위한 원칙을 안내한다. 의료‧교통‧챗봇 등 각 분야 사례 및 시나리오도 제공해 현장에서 손쉽게 활용할 수 있도록 했다. 가명정보는 개인정보 일부 항목을 삭제·변형해 추가 정보 결합 없이는 특정 개인을 알아볼 수 없도록 한 정보를 말한다.

80장 분량의 가명정보 활용의 전 과정을 상세하게 안내한 7종의 시나리오는 의료데이터, CCTV 영상, 음성 대화‧상담 정보를 활용하는 바이오‧헬스, 인공지능, 데이터 설루션 개발 등 여러 분야의 예시를 담고 있다.

가이드라인에 따르면, 우선 비정형데이터는 데이터 처리 목적 및 환경, 민감도 등을 종합적으로 고려해 개인식별 위험을 판단하고 합리적인 처리 방법과 수준을 정하도록 했다. 예를 들어 정형데이터의 경우 주민등록번호, 전화번호, 주소 등과 같이 개인식별위험이 있는 정보가 비교적 명확히 구분되지만 비정형데이터는 그렇지 않다.

눈‧코‧입을 알아볼 수 없는 거리‧각도에서 찍힌 CCTV 영상‧사진도 머리 스타일, 흉터, 문신 등 특이한 신체적 특징 때문에 식별위험이 있을 수 있다. 흉부 CT 촬영 사진도 그 자체로는 식별 위험이 높지 않지만 3차원 재건 기술 악용, 특이한 흉터 등은 위험 요소가 될 수 있다.

이에 대해 개인정보위는 가이드라인에서 제시한 개인 식별 위험성 검토 체크리스트를 통해 식별 위험을 사전에 진단하고 위험을 낮추기 위한 관리적‧환경적 통제 방안을 마련했다. 연구 목적 달성에 필수적인 정보 항목을 남기는 경우에는 그 외 정보에 대한 가명처리 수준을 높이거나 접근권한 통제 식별에 악용될 수 있는 소프트웨어(SW) 반입제한, 보안서약서 징수 등 조치를 시행하도록 했다.

개인정보위는 또 가명처리 기술의 적절성·신뢰성을 확인할 수 있는 근거를 작성·보관하고 가명처리 결과에 대해 자체적인 추가 검수를 수행하도록 했다. 처리기술의 적절성·신뢰성을 확인할 수 있는 근거와 추가 검수 등에 대해서는 외부전문가가 참여한 위원회의 적정성 검토를 받도록 했다. 또 가명정보 활용 기관의 내부통제를 강화하고 처리 목적이 달성된 가명정보는 신속히 파기해 개인정보 침해를 방지하기 위한 노력을 강조했다.

그밖에 기업 및 연구자가 ▲사전준비 ▲위험성 검토 ▲가명처리 ▲적정성 검토 ▲안전한 관리의 가명처리 단계별로 고려해야 하는 사항을 안내한다. 또 현재 개발 중인 가명처리 기술도 소개해 관련 경험이 부족한 스타트업 등이 참고할 수 있도록 했다.

고학수 개인정보위 위원장은 “인공지능 등 많은 신기술 영역은 현장의 불확실성을 해소할 수 있는 세밀한 데이터 처리 정책이 중요하다”며 “이번 가이드라인을 시작으로 대규모 언어모형 등 생성형 AI와 관련한 ‘공개된 개인정보 처리 가이드라인’ 등 현장의 어려움을 해소할 수 있는 기준을 올해 중에 순차적으로 발표할 계획”이라고 밝혔다. [김영준 마켓뉴스 기자]

김영준 기자 다른기사 보기