메타데이터와 빅데이터 (part 1) [IT] 예전 글들

Albert's Powerbook에 개시했던 글입니다.(2014.3. 13.)


1. 메타데이터 역사, 도서

01-Dewey Decimal Classification.jpg
<듀이의 10진법>

메타데이터를 가장 먼저 쓰인 곳이 책이 아닐까 합니다. 책은 역사적으로 가장 오래되고 현재까지 가장 많은 지식이 저장된 매체(인터넷 이전까지)입니다. 서점 혹은 도서관에 가서 ‘책등’에 써있는 책 제목(혹은 저자)을 보고 원하는 책을 뽑아 보고 커버의 디자인을 보고 책의 내용을 짐작하면서 처음 몇 장을 넘겨 차례를 훑은 다음 책의 전체 내용을 짐작하게 됩니다. 그리고 작가의 머리말 부터 읽게 됩니다. 본 책 내용을 접근하기 전에 책 내용을 요약한 내용을 먼저 보게 됩니다.
데이터 그 자체가 ‘책 내용’ 그 자체라면 ‘제목’, ‘저자’, ‘차례’, ‘커버’ 등은 데이터를 위한 데이터 즉 메타데이터로 말할 수 있습니다.
그러나 한권의 책을 들기 전에 서점과 도서관에 들어가자마자 꽂혀있는 책등 하나하나를 보기 앞서 책장에 대표로 써있는 분류를 확인하는 것이 먼저입니다. ‘철학’, ‘종교’, ‘사회과학’, ‘역사’ 등 말이죠. 음악에서 장르를 구분하듯 책 내용에 따라 책 내용이 비슷한 것으로 분류하여 놓여 있습니다.
현대 도서 분류 체계는 미국의 도서관 사서였던 멜빌 듀이가 1876년 듀이십진분류법*을 통해 분류를 시작하여 현재(2011년)까지 23번 개정했다고 합니다. 도서에만 쓰였던 듀이십분류법은 모든 기록에 대한 분류 체계를 다룬 국제십진분류법(Universal Decimal Classification (UDC))의 초석이 됩니다. 지식을 책에 한정하지 않고 일회성 자료에까지 확대하여 분류하게 했습니다.



모든 지식 체계에 대한 분류는 결국 책을 분류하는데 시작했다는 사실이 재미있습니다. 지식을 어떻게 분류하여 체계화 시키는 것에 대한 인간의 욕망의 결과일까요? 아니면 지식을 빨리 검색하여 습득하고 싶었기 때문일까요?
하나의 책은 그 책의 내용 그 자체 보다는 그 책이 가지고 있는 ‘제목’, ‘소제목’, ‘차례’, ‘인덱스(색인)’, ‘커버 디자인’ 등 그리고 ‘저자’, ‘출판사’, ‘발행일’, ‘판수’ 등으로 책에 대한 요약 정보로 책에 대한 부가 정보를 얻고 있습니다. 검색과 선택의 기준이 된다고 할까요?

2. 컴퓨터에서 메타데이터

02-Commodore_C128_CPM.jpg
<CP/M 커멘드라인(파일시스템 예)>

컴퓨터에서는 ‘File System’에 따라 파일을 생성, 저장, 삭제 등을 하게 됩니다. 고전적인 파일 시스템에서는 디렉토리(폴더)로 인한 계층화 구조로 파일을 담았습니다. 80년대에 나온 DOS(CP/M)에서는 파일명은 8자 파일의 속성을 나타내는 확장자는 3자로 파일의 정보를 나타냈습니다. (AUTOEXEC.BAT, CONFIG.SYS 등, 물론 당시 개인용 컴퓨터가 아닌 유닉스에서는 더 긴 파일명을 지원했습니다만.) 파일이 가지고 있는 고유 데이터에 대한 정보는 사용자마다 멋대로 저장한 디렉토리명과 8자의 파일명 밖에 없었습니다.
메타데이터를 개인용 컴퓨터 OS에 적극적으로 도입한 건 2004년 Mac OS X 10.4에 등장한 Spotlight입니다. 물론 그 전에 Finder (파일 정보)에서 일부 메타데이터를 보여주긴 했습니다만 파일에 대한 OS에서의 획기적인 접근은 OS X 10.5 QuickLook(메타데이터가 아닌 파일 그 자체를 바로 보여주는 기능)에 이르러서 입니다. 파인더에서 메타데이터 입력하는 (매우 제한적인) tag 기능은 한참 후인 2013년에 이르러 OS X 10.9에 도입하게 됩니다.

컴퓨터 File System(혹은 커널)에서 메타데이터가 도입된 건 최근의 일입니다. 그것도 어느 프로그램의 절대적인 공로가 있었기 때문이겠죠. iTunes.

3. 메타데이터로의 접근, iTunes

03-SoundJamLarge.jpg
<iTunes의 조상 SoundJam MP Free>

iPod 성공의 절대적인 공로자는 iTunes입니다. (일부 논란이 있겠지만) 진정한 윈도우즈의 트로이 목마 역할 이었습니다.
애플은 1985년 HFS (Hierarchy File System, 계층 파일 시스템)을 통해 FAT 보다 훨씬 앞선 파일 시스템을 만들었습니다. 이를 더욱 발전? 시켜 1998년 HFS+ 개발했습니다. 고전적인 파일시스템에 대한 지식이 어느 회사보다 풍부했을 테지만 애플은 2000년 iTunes를 발표할 때 기존의 폴더 등 계층화 파일시스템 접근방식으로 음악을 저장, 검색하지 않고 메타데이터를 이용한 플레이리스트(DB)를 구성, 검색하는 것을 전면적으로 내세우게 됩니다.
기존의 음악 재생 프로그램 또한 tag 정보를 읽을 수 있었지만 적극적으로 도입하진 않았습니다. 주로 음악이 담겨있는 해당 폴더로 접근해서 음악을 들을 수 있게 했습니다.
그렇지만 애플은 OS의 계층화된 폴더 접근을 무시하고 모든 곡을 DB화 하는 것을 사용자에게 강요했습니다. 이 방식은 기존 파일을 폴더로 접근하는 것에 익숙한 많은 사용자들에게 불편함을 호소하게 했습니다. 대부분 음악 파일에는 tag정보가 취약하여 Artist, Album, Title, Track 등 기본 정보가 누락된 경우가 많았죠.
그래서 국내에 나왔던 음원 재생 소프트웨어와 MP3 Player는 메타데이터 기반보다는 폴더 접근 방식을 고수하게 되었습니다. 그러나 iTunes와 iPod은 태생 부터 폴더 접근방식을 과감히 던져버리고 메타데이터 기반으로 운영하게 했습니다.
메타데이터와 폴더 접근방식에서 애플이 메타데이터 접근방식을 따른 이 선택이 애플이 기존의 모바일 기기에서 승리하게되는 반석이 되지 않았나 싶습니다.

4. iTunes, 메타데이터의 승리

04-iTunes 1.1.jpg
<iTunes 1.1>

음악을 정리 할 때 폴더 방식은 사람마다 제각각 정리하게 됩니다. 폴더명을 ‘Artist-Album’으로 할 것인가 ‘Album-Artist’로 할 것인가, SoundTrack 등 편집앨범의 폴더명을 어떻게 할것인가. 등 같은 앨범도 사람마다 서로 다른 기준으로 저장하게 됩니다. 파일명을 저장할때는 그 혼란은 배가 됩니다. ‘Aritst-track-title.mp3’로 할 것 인가, ‘track-Artist-Title.mp3’로 할 것인가 등.
다른 사람에게서 음원을 받게 되면(받아선 안되지만^^) 기존에 자기가 저장했던 폴더 정렬 혹은 음원 파일명 방식이 아니게 되면 이를 하나하나 수정하는 것이 어렵게 됩니다.
메타데이터 관리 방식이 파일시스템 방식보다 편리함은 아티스트, 앨범, 타이틀 등이 DB가 되어 검색이 가능하기 때문입니다. 파일명은 사용자가 저장했던 방식대로 폴더와 파일명을 찾을 수 밖에 없습니다. (맥에는 Spotlight가 있지만, 그래도 iTunes에서 검색하는 것보다는 비효율적입니다.) ‘Artist/Album/Artist-track-title.mp3’로 파일을 저장했을 경우 노래 제목만 기억날 때 찾는 건 보다 많은 수고가 필요하게 됩니다.
또한 앨범 커버(사진)과 가사 또한 메타데이터에 저장하여 아이팟 혹은 아이폰에서 볼 수 있게 준비한 건 2000년 당시 애플 만이 제대로 접근했습니다.
Tag :

Leave Comments

메타데이터와 빅데이터 (part 2) [IT] 예전 글들

Albert's Powerbook에 개시했던 글입니다.(2014.3. 18.)


5. 생활 속의 메타데이터

01-Price tag.gif
<가격표>

책 뿐만 아니라 일상 생활에서 대상을 나타내기(알리기) 위한 메타데이터를 흔히 마주치게 됩니다. 업무를 위해 누군가에게 전화를 하려고 하면 연락처(컴퓨터든 수첩이든)에 없으면 첫 만남에서 받았던 ‘명함’을 찾아보게 됩니다. 명함엔 그 사람이 몸 담고 있는 회사명(기관명), 회사로고, 부서명 사람의 위치를 나타내는 직위, 직책, 그리고 연락처인 회사주소, 전화, 이메일, 팩스. 간혹 명함 주인 사진. 컴퓨터가 대중화되기 이전 아니 아이폰이 나오기 이전에 사람에 대한 정보 ‘공유’에 가장 많이 사용된 물건이 명함입니다. 그리고 지금도 가장 많이 통용되고 있습니다. 가장 대표적인 사람에 대한 메타데이터를 표시한 것이 명함(Business Card)입니다. 

백화점에 가서 마음에 드는 옷을 고르면서 무의식적으로 Tag(가격표, 정확히는 Clothing price tag)를 보게 됩니다. 그 곳엔 가장 중요한 ‘가격’정보가 들어있기 때문이죠. 그와 동시에 보는 것이 사이즈이겠고요. Tag에는 ‘브랜드’, ‘바코드’ 등 그 옷에 대한 필요한 정보가 대게 들어가 있습니다. 옷이란 상품에 대한 메타데이터를 표시한 것이 Tag입니다. 옷은 박스로 담겨져 있지 않아서 Tag로 그 상품의 가치(돈)을 나타냅니다만 대부분 상품은 박스 한 면에 가격(바코드), 상품명 등 해당되는 정보를 요약해서 표시하게 됩니다.

6. 상품과 메타데이터

02-GETTY_B_021511_ClothesPriceTag.jpg
<옷에 붙어있는 가격표>

물건에 메타데이터가 사용되는 이유는 판매를 위해 만들어진 ‘상품’을 ‘유통’시키기 위해서가 아닐까 합니다. 제품의 ‘가격’, ‘재질(재료)’, ‘크기’, ‘브랜드’ 등 시장에서 다른 상품과 구별하기 위해서, 그리고 유통을 원활히 하기 위해서 상품에 대한 메타데이터를 표시하게 합니다. (메타데이터는 데이터의 데이터로 주로 문자이겠지만 이미지, 바코드 등도 될 수 있습니다. 메타데이터 구성은 메타데이터와 빅데이터 (part 3) ‘메타데이터의 구성’에서 다룰 예정입니다. - 아직 안 썼습니다.^^)



* 재화: 사람이 욕망을 만족시키기 위해 얻고자 하는 물건으로 직접 만들거나 아니면 돈을 주고 시장에서 살 수 있는 물건. 남경태-개념어 사전에서는 ‘재화는 소비를 목적으로 하고 상품은 시장에서 판매를 목적으로 한다는 점에서 차이가 크다’고 설명. (어렵네요. 결국 판매자가 만든 건 상품, 소비자가 원해서 구입한 건 재화이려나요?)

자본주의에서는 ‘인적 자원’도 하나의 상품으로 간주합니다. 매우 씁쓸합니다만 ‘명함’의 기본적인 목적도 ‘상품’으로써 자신을 알리는데 있습니다. 길거리에 뿌려져 있는 ‘대리운전 명함’과 ‘후보자 명함’은 얼핏 간극이 매우 멀어보이지만 결국 지향하는 것은 같다고 봅니다. 그래서 Business Card라고 했을지도요.

7. 지식(정보)와 메타데이터

03-800px-Newspaper_vendor.jpg
<신문가판대>

눈에 보이는 물건은 많은 정보를 인간의 오감으로 얻고 부수적인 정보 - 옷을 예를 들면 ‘가격’과 ‘사이즈’-를 메타데이터를 통해 얻게 됩니다. 그리고 Tag 등에 써있는 메타데이터는 유통에 필요한 정보가 주를 이룹니다. 상품코드(일련번호), 바코드 등등
눈으로 직접보고 상품을 구매함에 있어서 소비자들은 메타데이터를 의지하기 보단 (‘가격’을 제외하곤) 상품의 가치를 판단할 때 만져보고 입어보는 등 직접 느껴야만 대가를 지불*하게 됩니다. 바로 유형의 상품에 있어서 ‘문자’는 중요한 가치 기준(지식)이 아닙니다.

* 옷(음식) 등은 인터넷에서 물건에 대한 색과 촉감(혹은 맛)으로 대상을 직접경험이 어렵기에 의(입고)와 식(먹고)에 해당되는 상품의 경우 ‘가격’이 선택의 큰 변수가 됩니다. 직접경험이 필요한 상품에 대해서 인터넷에서는 가격이 싸질 수 밖에 없게 됩니다. 이 경험의 유무 차이가 유일한 유형의 상품과 지식정보(책, 음악, 영화) 등과 구별하게 합니다. 컨텐츠 상품은 책, CD 같은 유형이라면 인터넷과 오프라인에서 가격차이가 비교적 크지 않습니다.(물론 유통 마진이 빠져 인터넷이 더 저렴한건 사실이지만) 컨텐츠는 유형대신 무형(데이터)으로 대체하여 가격을 낮추게 됩니다.

기존의 (문자로 된) 지식을 담고 있는 대표적인 물건인 책의 경우 시장에서 판매하기 위한 상품이라 생각하기 어렵습니다. ‘상품’이 자본주의 시대에 출범했다면 책은 그보다 훨씬 이전부터 있었습니다. 자본주의 이전, 아니 인터넷 시대 이전 지식으로써 책의 가치는 돈을 주고 사는 것이 아닌 지식을 습득, 전달하는데 더 큰 의의가 있었습니다. 정치적인 수단으로 사용되었든 아니든 간에 책의 가치는 돈으로 환산되는 것만은 아니었습니다. (지식전달에 있어서 잡지와 신문의 경우 책과 비교하여 상품일 수 있습니다. 이 두 매체의 경우 자본주의 시대 이후에 본격적으로 등장*했으니까요.)

* 신문과 잡지의 경우 그전의 공식적인 ‘정부고시’와 달리 지금의 형태인 ‘정시에’ ‘정해진 페이지’를 갖추게 된 건 16~17세기 이후라고 합니다. 자본주의가 시작된 시기(16세기 이후)와 맞물리는 것이 우연은 아닐 것 같습니다.

8. 지식을 포장하는 메타데이터

04-functional hierarchy.png
<계층화된 문서 계층>


유형의 상품에서 제품의 포장- 물건에서의 박스, 패키지 - 에 상품에 대한 메타데이터로 소비자들은 가격과 제품에 대한 정보를 얻습니다. 판매자는 메타데이터로 상품들을 유통시킬 수 있게 됩니다. 유형의 상품에서 메타데이터의 중요성은 유통하는 사람(판매자)에게 더 의의가 있습니다. 메타데이터를 통하여 상품의 흐름을 알 수 있으니까요. 
그렇지만 지식데이터(컨텐츠)의 경우 그 지식을 필요로하는 사람(사용자)이 검색할 수 있야야만 가치가 부여될 수 있습니다. 무형의 상품(지식 데이터)*의 경우 하나의 상품으로 가치 있게 된 건, 온라인에서 검색이 가능한 이후 부터입니다.

지식 데이터(컨텐츠)는 주로 4가지 유형으로 나눕니다. 


콘텐츠는 그 자체로 인터넷만 연결되어 있다고 하여 상품이 되긴 어렵습니다. 인터넷에서 검색되는 자료는 그냥 가공되지 않은 날 것에 가깝습니다. 정보로써 가치가 있건 없건 검색되어지는 모든 것이 지식(문화) 상품이 되진 않습니다.
구글은 콘텐츠를 상품으로 만드는 대신 검색되는 콘텐츠와 유기적으로 연결된 ‘광고’를 상품으로 만들었습니다. 정보 게시자(사용자)의 그대로의 데이터와 광고를 함께 보여줌으로써 광고와 함께 검색결과(컨텐츠)를 결합하여 상품화 시킨 구글과 달리 애플은 컨텐츠 그 자체를 보다 정확한 메타데이터로 포장하여 상품화 시켰습니다. 상품으로써 컨텐츠의 소스를 사용자에게서 얻는 대신 기존의 컨텐츠 생산자인 음반사, 영화사 등에서 받은 다음 이를 매우 정교하게 구성했습니다.
그 기저에는 정확한 아티스트, 앨범, 타이틀 명을 넣고 거기에 앨범커버를 씌움으로써 내용을 꾸준히 업그레이드 하면서 제대로된 메타데이터를 구성하였습니다. 애플은 잘 검색되도록 메타데이터로 잘 포장된 상품을 만들고 유통하게 됩니다. 기존에 사용자가 겪었던 직접경험을 되도록 그대로 재현하였습니다.(어떤 면에서는 더 훌륭하게) 최대한 사용하기 편하게 말이죠. 물론 대가로 금액이 필요하겠지만.
Tag :

Leave Comments

메타데이터와 빅데이터 (part 3)
 [IT] 예전 글들

Albert's Powerbook에 개시했던 글입니다.(2014.3. 28.)


9. 지식의 두가지 접근법

01-함무라이 법전.png
<최초의 기록, 함무라이 법전>

인류의 지식 정보를 문자로 체계화 시킨 것 중 가장 오래된 것이 ‘법’*이 아닐까 합니다.



함무라이 법전이 기원전 1792년 고대 바빌로니아의 왕좌를 이어받은 함무라비 왕에 의해 일련의 행정・도덕 개혁을 단행하는 과정에서 나왔습니다. 인류 최초의 법은 아니지만 표준적 행동규범을 공포한 최초의 ‘기록법령’이라고 하지요. 알파벳 문자 체계가 기원전 1700년 경 지중해의 동쪽 해안 지방에서 생겨났다고 추정(당시의 글자는 지금 해석이 불가능하다고 합니다.)되는데 비슷한 시기에 나왔으니 가장 오래된 정보 기록이라 해도 무방할 것 같습니다. 
< 참조: National Geographic 세계의 역사를 뒤바꾼 1000가지 사건>



법은 국가에서 인간의 행동규범을 (통제하기 위해) 체계화시킨 것인데 인류는 문화에 따라 규범(법)을 만드는 두가지 방법을 고안?하게 되었습니다.(서양만 해당되겠네요.) 사회 규범(법)을 ‘문자’로 명문화하여 발전한 법이 로마법에서 발전한 대륙법(독일법)이고 다른 한편에서는 인간 ‘경험’을 근거하여 정리한 것이 관습법(영미법)입니다.
지식을 바라보는 두 접근법으로 ‘영국의 경험론’에서 관습법이 태동하고, ‘대륙의 합리론’에서 원칙적인 성문법이 태동한 것은 우연이 아닙니다.



대륙 합리론 : 합리론자들이 지식의 기원을 ‘수학적 방법론’을 따라 거대한 지식의 원리(원칙)로부터 구체적인 지식들을 끌어냄
영국 경험론 : ‘자연과학적 방법론’에 근거하여 구체적인 관찰을 통해 지식의 원리를 발견
<참조: 서양 근대 철학사: 합리론과 경험론|작성자 YOUN>



근대에 이르러 지식에 대한 접근법은 칸트에 의해 ‘내용(경험, 직관)’과 ‘형식(원리, 개념, 사유)’을 통합하게 됩니다. 도올 김용옥 교수는 이를 붕어빵으로 묘사합니다. 붕어빵을 만드는 ‘틀’은 ‘형식’으로 ‘밀가루와 팥’은 ‘내용’이라고 설명합니다. 여하튼 ‘통합’된다는 얘기겠죠?(윽. 어렵네요.) 



어찌되었든 현대에 이르러 법 체계 또한 성문법과 관습법 모두 중요한 위치를 차지하게 됩니다. 우리나라는 독일법(일본법) 체계로 성문법을 근거로 하고 있지만 관습법에 해당되는 ‘판례’ 또한 상당히 중요하고 관습법을 따르는 미국이지만 성문법인 ‘헌법’이 최고 법입니다.

10. 메타데이터의 두가지 유형

02-Metadata.png
<메타데이터 모델>

정보 접근에 있어서도 크게는 두가지 방법을 따르지 않나 싶습니다. 데이터(정보)는 고정된 데이터와 변화하는 데이터가 있습니다. 메타데이터에서 데이터가 고정이 되는 필드 데이터(정적 메타데이터)가 있고 시간과 장소에 따라 데이터가 변화되는 필드 데이터(동적 메타데이터)가 있습니다.
음악파일을 예를 들면-

정적 메타데이터 필드: 장르, 아티스트, 앨범명, 년도, 트랙, 생성 날짜, 구입 날짜, 길이*, 종류*, 샘플률*, 비트율*…
* 데이터를 변환하기 전에는 편집이 불가능한 필드
동적 메타데이터 필드: 재생* (횟수), 건너뛰기, 최종 재생시간, 최근 건너뛰기 시간, 선호도
* ‘재생’은 단지 횟수만 업데이트 되는 것이 아닌 한 개인이 가지고 있는 모든 기기가 Apple ID에 동기화 되어 있다면 각 기기마다의 횟수와 시간을 기록


정적 메타데이터는 데이터가 생성되면서 고정되는 값(혹은 고정 되어야 할 값)입니다. 음악파일이 생성되면 그 곡의 타이틀, 아티스트와 앨범 등 은 한번 입력되면 변경이 없습니다. 잘못된 정보가 아니라면 정적 메타데이터는 수정을 할 필요가 없습니다. 반면 동적 메타데이터는 유동적입니다. 언제 들었는지(재생 시간, 최종 재생시간), 듣다 말았는지(건너 뜀), 어디서 들었는지(재생한 위치정보 GPS) 등 인간 행동에 의해 수시로 변화됩니다. 동적 메타데이터는 각 사람마다의 ‘경험’에 의해 데이터 값이 변한다고 할 수 있습니다.

데이터에 대한 정의: 정적 메타데이터, 형식적인 데이터, 검색에 필요한 데이터
데이터에 대한 변위: 동적 메타데이터, 사람의 경험에 의해 변경되는 데이터, 지능형 데이터


11. 사람과 메타데이터

03-Genuis Recommandation.png
<iTunes의 Genius 추천>

정적 메타데이터 에서는 검색에 초점이 맞추어져 있습니다. 내가 듣고 싶은 음악을 듣고 싶을 때 ‘아티스트’와 ‘타이틀(음악 제목)’을 검색합니다. 검색하는 것으로는 메타데이터에 변경에 영향을 주진 않습니다. (물론 검색된 결과가 log파일로 남을 수도 있고 iTunes Store에서 중요한 키워드가 될 수 있겠지만) 어떤 음악을 검색해서 플레이 하는 순간 바로 소프트웨어(iTunes)는 재생했다는 기록을 남깁니다. 확대해 보면 누가, 언제, 어디서(예: SoundHound와 GPS 연동), 어떤 음악을, 어느 기기에서 등등이 메타데이터에 기록 합니다. 이는 단 한사람의 기록이 아니라 집단 데이터가 된다면 어느 음악을 누가 많이 듣는지 분석하여 다른 음악을 추천할 수 있습니다. 이 기본 기능이 iTunes Genius 추천입니다. 
‘이러저러한 음악을 많이 들으니 지금 라이브러리에 없는 곡을 추천’ 혹은 
‘비슷한 또래, 좋아하는 장르를 듣는 사람들의 노래를 추천’
동적 메타데이터를 통하여 사람의 경험을 축적하게 되고 이 정보들이 Apple iTunes Server에 공유된다면(애플은 개인정보를 절대 안 받는다고 극구 부인하지만) 이를 바탕으로 여러 사람의 동적 메타데이터를 수집하여 통계적 가치가 있는 데이터가 될 수 있습니다. 그러면 사람들의 기호를 판단하고 예측 할 수 있게 됩니다.
동적 메타데이터를 통하여 인공 지능형 데이터를 구축할 수 있습니다. 이렇게 구축된 지능형 데이터가 ‘빅데이터’가 아닐까요?
Tag :

Leave Comments

메타데이터와 빅데이터 (part 4) [IT] 예전 글들

Albert's Powerbook에 개시했던 글입니다.(2014.4. 11.)



12. 데이터의 범위

1-Eye&Ear480.jpg 
<우리가 취하는 데이터는 소리와 보는 것(문자, 그림, 영상)에 한정된다>

모든 것에 대한 데이터라 하지만 빅데이터의 범위가 언뜻 그렇게 넓어 보이지 않습니다. 빅데이터라는 말이 컴퓨터 기술이 발전하여 저장용량이 커지고 연산속도가 빨라졌으니 자연스럽게 생긴 말인 것 같기도 합니다. 데이터의 핵심은 저장 될 수 있느냐 이죠. 거칠게 말해 데이터는 디지털로 변환 된 것이라 해도 무방할 것 같습니다. 결국 데이터라 말 할 수 있는 것만 빅데이터 범위에 들어갑니다.
그런데 데이터화 할 수 있는 것이 뭘까요? 저장될 수 있는 것이 뭘까요? 우리가 생각하는 데이터라는 것이 보이는 것과 들리는 것에 한정되어 있는 것입니다. 오감 중에 단 두가지 감각만이 디지털에 성공한 것이죠. 후각, 촉각, 미각은 디지털 하기에 매우 어렵습니다. 네 아직까지 상상이 안됩니다. 디지털로 변환하기가 어렵다는 것은 데이터 처리가 어렵다고 해도 되겠죠? 인터넷 검색으로만 맛집을 찾는 것 만큼 모호합니다. 우리가 생각하는 ‘빅 데이터’는 아날로그 정보매체에서 성공한 것 중 일부인 책, 음악, 영화, 그림, 사진 등에 해당됩니다. (거기에 위치정보 등 이 결합되었다고 할까요.)

우리가 데이터를 접근하는 건 ‘보는 것’과 ‘듣는 것’에 한정됩니다. 이를 모니터와 스피커로 보고 듣게 됩니다. 디지털은 엄밀히 말해 아날로그 중 보고 듣는 것의 재생에 불가하다는 말도 일리있습니다. 이렇게 보면 데이터라는 것이 정말 별게 아닌 것 처럼 보입니다. 
그렇지만 ‘보고’ ‘듣는 것’으로 우리가 생각하고 그 생각을 전달하고 어떤 경우 생각을 통제하고 통제를 당할 수 있게 됩니다. 보는 것과 듣는 것을 어떻게 체계화 하느냐에 따라 세상의 영향력이 달라졌다고 해도 무방할 것 같습니다. 컴퓨터가 등장하기 전엔 언어와 문자가 권력의 중심이었다면 지금은 데이터가 권력의 중심이 되고 있습니다. 그래서 빅데이터라고 명명 했을지도요.


13. 데이터와 메타데이터

02-r.jpg
<애플과 스타벅스의 제휴>

앞서 말했듯 ‘보는 것’과 ‘듣는 것’이 데이터가 되는 것처럼 컴퓨터 데이터의 종류는 3가지(혹은 4가지)로 분류합니다. 텍스트(문자), 그림(사진), 음성-영상, (혹은 영상과 문자가 결합한 데이터) 입니다. 
이 데이터들은 디지털로 저장 되어 있지만 이를 검색하기 위해선 ‘문자’로 요약되어야 편하게 검색할 수 있습니다. 메타데이터의 1차적인 목적은 데이터를 보다 편하게 ‘검색’하는데 있습니다. 물론 각 데이터는 그 속성에 따라 메타테이터 값이 차이가 있습니다. 음악은 음악에 대한 메타데이터 값이 따로 있고 사진, 영상, 도큐멘트(이북)은 그것에 따른 메타데이터 값이 따로 있습니다. 
메타데이터는 비단 컴퓨터 데이터만 한정 시킬 수 없습니다. 사람 그 자체도 메타데이터화 할 수 있습니다. 애플과 구글 같은 온라인 서비스를 접근하면 사람의 신상 정보(이름, 성명, 생일 등)는 중요한 메타데이터가 됩니다. 하드웨어 또한 메타데이터(컴퓨터 이름, Mac Address, IP Address)를 생성합니다. 여기서 메타데이터의 두번째 의의가 있습니다. ‘데이터와의 연결’ 즉, 디지털 데이터와 사람과 기기의 매개를 메타데이터를 통하여 가능하게 됩니다.


이 모든 메타데이터들(사람, 기기, 장소, 음원 등)은 하나의 연결이 됩니다. 이 연결을 위해서 컴퓨터에서 데이터들을 Object로 인식합니다. 그냥 쉽게 생각해서 눈에 보이는 물건 취급을 하는 것이죠. 그리고 그 물건들에게 이름을 부여합니다. 물건(object)이 데이터라면 이름이 메타데이터라고 할까요?
Object가 있으면 Object 자체가 데이터가 되고 그 안에 메타데이터가 있습니다. 그리고 그것은 모두 DB화 할 수 있다는 것입니다. 따지고 보면 눈에 보이는 모든 것은 메타데이터로 표현 할 수 있습니다. 증강현실이 가능 한 것도 길과 건물 등을 메타데이터(도로명, 건물주소, 상점명 등)로 인식하여 활용하기에 가능합니다. 이렇게 확대하다보면 메타데이터는 실로 눈에 보이는 모든 것에 해당 되는 것 같습니다. 메타데이터는 ‘데이터의 데이터’이기에 세상의 모든 것(Object)을 데이터화 했다는 것이 옳은 말입니다. 

아이러니 하게도 인간의 지식(경험과 관념)을 표현하여 얻어진 결과물이 글(문자), 그림 및 음표 등 이었고 이것을 컴퓨터로 디지털화 시킨 것이 데이터였는데 말이죠. 사물을 통해 얻어진 인간의 경험과 관념이 지식으로, 컴퓨터를 통하여 지식은 데이터로, 데이터는 데이터 안에 메타데이터를 생성하고, 세상의 모든 사물에 메타데이터를 심어 데이터화 하고 사물의 메타데이터를 통해 인간은 사물을 인식하게 하게 되었습니다.

14. 지식, 모든 것을 상품으로 만드는 ‘빅데이터’

04-지식.png
<지식은 판매 목적으로 생산된다.>

컴퓨터의 발달로 인해 지식과 그에 비롯한 것들은 ‘검색’와 ‘연결’ 가능한 메타데이터가 되었습니다. 다시말해 눈에 보이는 모든 것은 메타데이터가 되었습니다. 지식을 비롯한 모든 것(Object)을 메타데이터화 하는 것이 바로 ‘빅데이터’라 생각합니다. 모든 것을 메타데이터로 인식한 것 즉, 빅데이터의 궁극적인 목적은 팔 수 있는 상품을 위해서 입니다.



검색과 연결이 될 수 있는 지식, 데이터 그리고 메타데이터가 덧입힌 Object는 다시말해 우리가 현재 말하고 있는 빅데이터에 글로벌 기업들이 너도나도 선점하려고 힘쓰는 이유는 그 속내는 (씁쓸하게도) 결국 돈 때문입니다. 의류 같은 상품에 태그를 달아놓는 것과 근본적으로 다를게 없습니다. 아니 더 심각하게 말해 권력에 해당됩니다.

15. 상품을 넘어서

이제 자본에서 보이지 않는 손의 통제를 믿는 사람은 없습니다. 수요와 공급은 권력에 영향을 무시할 수 없기 때문입니다. 자동 제어장치는 환상이었습니다. 각각의 데이터 그 자체는 권력이 아니지만 그 데이터를 관리할 수 있는 특정 회사(혹은 국가)가 있다면 그곳은 권력이 됩니다. 만약 어느 회사 혹은 국가가 빅데이터를 관리하게 된다면 그 데이터들은 매우 비싸게 유통될 것 같습니다. 귀속의 영향력이 매우 크다고 할까요? 데이터의 세계는 유독 승자가 모든 것을 가지게 되게 됩니다. Google 검색이 그랬던 것 처럼.
자본주의 사회에서 모든 것은 상품이 될 수 있기에 그것을 막을 수도 없어 보입니다. 데이터를 지배하는 국가가 전세계의 부의 많은 부분을 가져가게 될 겁니다. 당분간 미국이 그 중심에 있겠죠. 
그럼 우리가 가야할 방향은 어디일까요? 정답은 모릅니다. 지금까지 우리는 자신만의 플랫폼을 만들기 위해 노력했습니다. 결론은 실패였습니다. 자신만의 플랫폼을 만들어 놓고 그 안에서 권력다툼을 했고 결국 세계의 주류에서 도태되었습니다. (공인인증서 등)
그렇다고 어느 기업이 제일 잘 나가니 그곳의 플랫폼을 전적으로 쓰는 것도 문제가 있습니다. 그것도 우린 실패했습니다. (window XP, Active X)
빅데이터 플랫폼은 아직 무주공산 처럼 보입니다. 구글은 검색과 광고에서 애플은 유료 컨텐츠에서 강세에 있습니다. 그리고 엄청난 돈을 투입하여 독자적인 데이터 클라우드 시스템을 구축하고 있습니다. 그리고 데이터 연계 서비스를 서로 강점을 내세워 추진 중에 있습니다. 구글은 자신들이 직접 데이터를 수집하고 애플은 서비스를 제공하는 회사들과 연계하여 데이터를 연계하여 구축하고 있습니다. 빅데이터에 대해 생각하면 할 수록 ‘상품’으로서 데이터만 떠오릅니다.
그러나 여기에 기존 권력을 넘어서는 틈새가 분명 있다고 생각합니다. 거대 언론에 어느정도 영향을 주었던 Podcast 같은 존재로써. 아니 애플이 기존 거대 권력과 싸웠던 것 처럼.
아직 모르겠습니다. 그냥 찜찜하게 글을 마무리 할 수 밖에 없을 것 같습니다.
Tag :

Leave Comments

웨어러블에 대한 우려와 기대, 구글과 애플의 의료센서에 대한 관심 [IT] 예전 글들

Albert's Powerbook에 개시했던 글입니다.(2014.1. 22.)


1. 신분 확인을 위한 생체 삽입 칩, VeriChip

01-Verichip.png
<VeriChip: 피부 층에 삽입>


제가 다니는 연구원에서 8년 전에 웰니스(Wellness)기기팀과 실버기술개발단이라는 곳이 새로 생겼습니다. 2005년, 그때 부터 공학이 인간의 삶의 질을 높여야 한다는 트랜드가 서서히 일어나기 시작 했던 것 같습니다. 이웃나라 일본이 고령화의 영향으로 그 분야 산업이 먼저 부흥되었고 그 영향이 우리나라에게 미쳤던 것이죠. 그 팀에서 일하는 한 연구원과 친해져서 이런저런 이야기를 하다가 미국에서 인간의 몸에 의료를 위한 RFID 센서를 이식하는 시도가 있다는 이야기를 들었습니다. 그 친구는 인간 몸에 센서를 삽입하는 것 혹은 팔찌에 센서를 지니는 것에 대해 긍정적인 면을 이야기 하더군요.

1) 빠른 응급처치를 위해 센서에 환자와 환자의 지병을 기록
2) 외지에 의식불명의 환자가 있을 경우 신분 확인
3) 질병에 대한 시공간 데이터 수집 및 추적
4) 각 사람마다의 질병 데이터 네트워크 공유

(자료를 찾아보니 2004년 10월 13일에 미국 FDA(Food and Drug Administration)는 플로리다 소재 어플라이드 디지털 솔루션(Applied Digital Solutions, ADSX)사에서 상용화한 인체삽입을 위한 VeriChip(현재는 PositiveID로 개명)을 승인했다고 합니다. (2010년 이후 제조, 마케팅 중단)
아직 부작용도 증명 안된 이 제품을 FDA는 무슨 근거로 그렇게 급히 승인했을까요?)

그 연구원은 인간의 몸에 삽입을 하든 몸에 지니든 지병을 가진 환자의 빠른 응급처치를 위해 그 기술이 꼭 필요하다고 설파했던 기억이 났습니다. 긴급한 응급 환자에겐 꼭 필요할 거라며.
인체 삽입칩에 대한 생각을 하다보니 인체 삽입칩이 가지고 있는 위에서 열거한 긍정적인 측면만 생각 되진 않았습니다. 이 칩의 위력은 인간에 대한 데이터에 있습니다. 즉, 그 데이터를 가진 기관(혹은 국가)가 국민에 대한 절대적인 권한을 가지게 할 수 있다는 것이죠. 소위 요즘 말하는 모든 사람에 대한 ‘빅데이터’를 누군가가 가질 수 있다는 것입니다.

2. 사람에 대한 메타데이터, 지갑 속의 신분증 시스템(Identity System)

02-신분증.png
<도민증, 주민등록증>


지난 글에서 양복(청바지) 호주머니가 현대의 행동양식에 많은 영향을 주었다고 말씀드렸습니다. 그 호주머니에 들어가는 물건이 ‘지갑’이고 그 안에 대표적으로 들어가는 것이 돈과 신분증입니다. 지갑은 기술의 발달이 계속 되더라도 오래동안 살아남을 모바일 물건이 될 가능성이 높습니다. 자본주의의 상징인 ‘지폐’가 사라지지 않는 이상. 

리바이스 호주머니에 대한 재밌는 일화가 있습니다.



현대의 바지 호주머니의 완성이 광산 노동자들이 입을 수 있게 만들었던 리바이스 청바지였다는 것이 재미있습니다. 호주머니를 못으로 보강하는 유일한 이유가 광석(황금)이었으니까요. 고된 일로 튼튼한 대님으로 된 튼튼한 옷이 필요함과 동시에. 현대의 바지 주머니는 자본의 상징인 황금 대신 지갑이 들어갔다고 해야 할까요?

지갑 속에 또 다른 중요 물건은 ‘신분증’입니다. 세계 거의 대부분의 나라에서 신분증 제도가 존재한다고 합니다. 그렇지만 ‘강제적’으로 전국민을 대상으로 일련번호를 부여하는 나라는 몇나라 안된다고 하죠.



우리나라의 경우 또한 강제적 신분증으로 1962년 5월에 ‘주민의 거주관계와 인구의 동태를 명확히 해서 행정사무를 원활하게 처리’ 할 수 있도록 기존의 시-도민증 제도(1950년대 도입)를 정비해 ‘주민등록법’을 제정했다고 합니다. 지금처럼 앞자리 6자리가 생년월일로 도입된 건 1975년 7월 25일 개정때였다고 하네요. 그해 주민등록 개정의 목적은 국가 안보태세를 강화하기 위해서라고 합니다. 주민등록을 거주 사실과 일치시키고 주민등록증 발급대상자 연령을 민방위대 및 전시동원 대상자 연령과 일치시키고자 18세에서 17세로 낮췄습니다. 1999년 개정 플라스틱 주민등록증(현재) 이전까지 남자의 주민등록증을 보면 ‘병역’ 란 이 있었습니다. 한국의 주민등록증은 국가가 목적성을 가지고 있었던 셈입니다. 군인에게 군번이 있듯 국민에게 번호를 부여하는 건 자연스런 선택이었습니다. 그 결과 우리나라에서는 개인 신분확인번호를 할당하는 강제적인 신분증이 생기게 되었습니다. 이 체계의 장점은 치안의 확보로 국민들이 안전하게 거주할 수 있게 하며, 정보를 가지고 있는 국가는 국민을 통제하기 매우 간편하기 때문입니다. 

3. 인증을 위한 기술
1) 바이오매트릭스 (Biometrics)

03-touchid-scan-fingerprint2-20130910.jpg
<iPhone 5s에 처음 도입한 TouchID>



우리나라 신분증은 1962년 주민번호와 함께 ‘지문’을 넣게 하고 있습니다. 또한 다른 국가와 달리 특이하게 여권에 이 두가지 항목(주민번호, 지문)을 다 넣고 있습니다.

지문은 가장 오래된 바이오매트릭스(생체측정학)라고 합니다. 국가 기관에서 처음으로 지문을 사용(수집)한 건 1891년 아르헨티나에서 범죄자들의 지문이었다고 하네요. 지문을 사용하게 된 건 전적으로 (범인들을 위한) 통제의 수단이었습니다. 



개인적으로 많이 쓰이는 지문인식은 현관 출입문 정도 일까요?
바이오매트릭스는 최근 모바일과 웨어러블 기기의 발전으로 다시 부각이 되기 시작했습니다. 아이폰 5s의 TouchID의 경우 지문을 이용한 바이오매트릭스의 대표적인 사례라고 할 수 있습니다. 아이폰에서는 기기 접근에 대한 보완과 소프트웨어에 대한 보완과 콘텐츠 구입에 대한 보완 등을 기존의 숫자 혹은 문자 인증에서 지문인식으로 보완하였습니다. 처음 나왔을 때 많은 우려를 불식시키기 위해 TouchID에 대한 정보는 유출되지 않는다라고 주장했지요. 들려오는 소식에 따르면 경쟁사에서는 ‘홍채’인식을 시도한다고 하죠. (안면윤곽 인식이 처음 스마트폰에 도입된 건 넥서스 1이었던 것 같습니다.)

2) 식별기술의 대표 RFID (Radio-Frequency Identification)

04-RFID.jpg

<RFID 사용>




바이오매트릭스와 달리 RFID의 경우는 쉽게 말해 전파를 이용한 바코드라고 할 수 있습니다. 예전 고등학교 때 대형 CD 음반가게에서 바코드 대신에 RFID 태그를 사용했던 것으로 보니 꽤 오래전부터 일상에서 사용한 것 같습니다. 당시에 CD 포장 비닐에 붙어있는 RFID 태그가 궁금해서 뜯어서 보면 얇은 전선이 촘촘히 감겨 있었죠.
요즘, 회사 출입을 위한 신분증, 전자식 여권 등에 까지 사용하고 있습니다. 교통카드(IC 칩), USIM 카드, NFC 등 또한 정확히 RFID의 기술은 아니어도 기기에 대한 식별 기술로 같은 범주에 있다고 볼 수 있습니다.

(요즘 RFID가 도입된 전자식 여권이 복제가 용이한 RFID 기술이 적용된 것에 대한 비판이 있습니다.)


위에서 언급한 인체 삽입 칩인 Verichip의 경우 RFID 태그를 이용하는 것으로 알고 있습니다.

4. 불안하고 위험해 보이는 구글의 스마트 컨텍트 렌즈


05-google-contact-lens.jpg
<Google에서 개발 중인 스마트 콘텍트 렌즈>


구글은 지난 1월 18일에 구글 글래스를 넘어 이젠 스마트 컨텍트 렌즈(무선 칩과 센서 등 이용)를 통해 당 검사 등 의학용도로 사용한다고 발표했습니다. 전 지나친 의심일지 모르지만 구글의 지금까지의 자취를 보면 상당히 꺼림칙합니다. 명목상 환자를 위한 제품이라고 하지만 그 칩에는 환자에 대한 많은 정보가 들어갈 수 있기 때문입니다. 그리고 구글은 태생이 데이터를 수집하는 ‘온라인’ 검색회사입니다. 모든 정보를 중앙에서 포집하길 간절히 바라고 있습니다. 
구글은 검색하는 행위를 통해서 사람들의 ‘심리’를 들여다 보왔습니다. 구글은 이미 특정지역에 질병이 퍼질지 국가보다 먼저 예측이 가능합니다. 이는 특정지역에서 예를 들어 ‘독감 치료법’라는 키워드가 두드러진다면 그 지역에 독감이 퍼질 가능성이 높다는 것을 데이터를 통해 미리 알 수 있습니다. 미국 질병통제국에 비해 2주나 일찍 알 수 있었다고 합니다. 
(이를 이용한 독감 사이트 http://www.google.org/flutrends/)


06-Google Trends-800.png 
<구글은 트랜드 서비스로 빅데이터 이용한 예측이 가능>


물론 위 예는 매우 건전한 검색데이터 활용이라 할 수 있습니다. 그렇지만 이것이 특정 권력을 위해 움직인다면 매우 불안할 것 같습니다. 검색이 인간의 심리에 대한 데이터라면 구글은 이제 인간에 대한 직접적인 생체 데이터를 수집하려고 움직이는 것 같아 불안합니다.


5. 애플의 생체의학에 대한 움직임? 끝나지 않는 결론

07-gattaca.png
<영화 가타카에서 생체인식을 속이는 장면>

구글과 같지 않겠지만 애플은 최근 생체의학 분야 전문가를 대거 채용하고 있다고 합니다. 그 중 Sano Intelligence라는 스타트업에서 일하다 애플에 최근 입사한 하드웨어 엔지니어 Nancy Dougherty 사람이 연구한 분야가 눈에 띕니다. 그녀가 주로 연구하는 분야는 바늘을 사용하지 않고 패치를 부착하는 것만으로 사람의 혈액을 분석할 수 있는 기술이라고 하네요. 영화 가타카(Gattaca)에서 보면 신분인증을 위해 출입구에 바늘이 장착한 기계로 혈액을 채취하는 모습이 있습니다. 주인공은 DNA가 우성인 사람의 혈액을 손끝에 덮씌우고 채취하도록 하여 신분을 속이는 장면이 나오죠. 애플에 입사한 그녀가 개발한 패치가 어디까지 가능할지 모르지만 병에 대한 분석 뿐 아니라 신분에 대한 분석또한 가능할 것 같습니다.

전 구글은 위험하고 애플은 아닐거다라고 말하려는 것은 아닙니다. 전 애플도 어느 기업과 똑같이 생체정보에 대한 접근은 위험할 수 있다고 생각합니다. 신분증이 메타데이터(데이터의 데이터)라면 생체 데이터는 신체 그 자체 데이터 일 수 있기 때문입니다. (물론 그렇다고 해도 메타데이터이겠지만) 다시 말해 기존에 신분증은 종이에 써있을 때, Verichip 같은 IC 칩에 들어갈 때 최종적으로 신체 그 자체일 때의 데이터 량이 전혀 다를 것 입니다.

개인에 대한 데이터가 통제가 된다면, 다시 말해 생체 정보 등 기존 보다 훨씬 많은 데이터가 특정 기관(국가)에 통제 된다면 그리고 그것이 특정 목적에 의해 사용된다면 상상만 해도 암울해 집니다.

지금 바라는 것은 1960년대에 컴퓨터가 ‘빅 브라더’로 인식되었지만 지금에 와서 매우 친숙한 제품이 된 것처럼 웨어러블 기기들 또한 인간 삶을 재밌고 이롭게 하는 제품이 되길 바래봅니다. 그 중심에 애플이 있길 기대해 봅니다.


지금의 생체 정보 접근이 현대판 가타카가 될 수도 있다고 상상한다면 너무 큰 비약일테죠?
Tag :

Leave Comments