최신 기사 추천 기사 연재 기사 마빡 리스트
trexx 추천19 비추천0





1. 구글이 지배한 (공짜) 세상

1.JPG
웹브라우저 주소입력창에서 검색 서비스를 바로 이용할 수 있다.

홀로 방에 있는 늦은 밤, 구글은 위안이 된다. 글을 쓸 때, 궁금한 것이 떠오를 때 브라우저 주소창에 웹싸이트 주소 대신 키워드를 넣어 구글에 물어본다. 온갖 생각이 키워드로 치환되고 구글은 그것을 통해 내 머릿속을 들여다본 것처럼 내가 원하는 것들을 보여준다. 구글은 공개된 컨텐츠를 지배했다. 글뿐만 아니다. 이미지, 동영상 등 컨텐츠는 모두 구글로 검색된다. 

구글의 강력한 검색기능은 이미지에도 해당된다. image.google.com에 가서 키워드를 치면 순식간에 수많은 사진들을 뿌려준다. 구글이 키워드로 뿌려주는 컨텐츠는 등급이 없다. 상상 이상의 것들을 보여준다. 구글이 추구하는 건 전세계 모든 컨텐츠를 검색하는 것이기에.

그런데 구글에 변화가 생겼다. ‘구글 세이프 서치’가 강제 적용되면서 모든 컨텐츠를 보여주지 않기 시작했다. 그것도 한국 사용자들에게만.

‘세이프 서치’기능은 구글 검색에서 특정 외설 단어나 성인 이미지가 검색되지 않도록 어린아이들을 보호하기 위해 ‘성인 컨텐츠를 검색에서 제외’하는 기능이다. 관련 기술 및 법규는 1990년 대 말부터 이미 시작되어 왔고 기기의 사용자 환경에 따라 OS에 구현 되어 있든지 소프트웨어로 별도 설치되기도 한다.

어쨌든 이 기능은 사용자가 ‘자율’적으로 설정할 수 있었다. 그런데 구글에서 아무런 언급 없이, 한국 사용자들이 해당 기능을 끌 수 없게 해놓은 것이다. 이에 대하여 구글은 정확한 성명을 발표하지 않았다. 구글코리아 관계자가 "본사에서 해당 이슈를 파악했으며 자세한 사정을 들여다보고 있다"고 말했을 따름이다. (이 말이 진실인지는 두고 봐야 할 듯하다) 검색을 국가 차원에서 강제하는 건 ‘정부’의 입김 없이 불가능하기 때문에 많은 사용자들이 의구심을 가지고 있는 상황이다.

구글은 컨텐츠 자체에 가치를 매기지 않는다. 그 말은 컨텐츠를 팔 생각이 애초에는 없었다는 뜻이다. 구글과 애플이 궁극적으로 다른 지점이 이것이다. 애플은 컨텐츠를 단위마다 쪼개 가치를 매겼다. 이 정책은 2003년 등장한 iTunes Music Store가 유료 컨텐츠의 강자로 올라선 배경이기도 하다. 컨텐츠를 선별하여 개당 가치를 매긴다. 애플이 이렇게 하기 전까지 음원 1곡당 $0.99라는 개념은 없었다. 이후 1곡당 $0.99 개념은 음원 뿐 아니라 모든 컨텐츠를 지배했고 결국 2008년 앱스토어가 등장한 후에도 이 개념은 지속되어 1앱당 $0.99라는 인식을 확립하게 된다.

구글은 기본적으로 광고(ad)로 먹고 산다. 보다 많은 페이지를 뿌려줄 수록 광고 노출은 커진다. 그러기에 더 많은 컨텐츠를 노출시키도록 웹의 자료들을 긁어댄다. 컨텐츠의 가치는 (반드시 그렇지는 않지만) 얼마나 자주 검색되고 선택되느냐에 달려있다.

2.png
OS X의 유해 컨텐츠 차단 기능 설정

애플은 처음부터 유료 컨텐츠에 신경썼기에 기존의 전통적인 유료 미디어 산업의 시스템을 받아 들일 수 있었지만 구글은 처음부터 ‘검색’에 열중한 나머지 전통을 깨버리고 모든 자료를 검색대 위에 올려놓았다. 그 결과 컨텐츠에 대한 ‘등급’은 존재하지 않았다. 그저 하나의 ‘키워드’ 에 따라 선택될 뿐이다.

3.jpg
구글 검색은 모든 컨텐츠를 대상으로 한다.(검색어 ‘nude’)

필자는 늦은 밤 image.google.com에서 nude라는 키워드를 심심할 때 넣어보고 구글의 등급없는 공짜 컨텐츠에 감탄(?) 하곤 한다. 자주는 아니지만.


2. 딥 러닝, 머신 러닝

Jeremy Howard - Deep Learning에 대한 강의

세이프 서치 이야기에 사족이 될 수 있겠지만 최근 많이 화자와 되고 있는 ‘딥 러닝(Deep Learning)’을 한번 언급하고 싶다.  

지난 5월 구글은 딥러닝 전문기업인 딥 마인드를 인수하였다. 페이스북, 마이크로소프트 등도 관련 기술을 사들이거나 기업을 인수하고 있다. 많은 IT 기업들이 딥러닝(머신 러닝)에 관심을 가지고 있고 실제로 많이 도입하고 있다.

딥 러닝, 머신 러닝은 쉽게 말해 ‘장님 코끼리 만지기를 더 정확하게 해내도록 만드는 것’이라 말 할 수 있다. 여기서 장님은 컴퓨터이고, 코끼리는 컨텐츠, 그리고 더 많이 만져서 정확한 코끼리의 모습을 알아내도록 하는 과정이 ‘러닝(학습)’에 해당된다. 

컴퓨터는 동물의 눈 같은 인지감각기관이 없다. 컴퓨터가 인지하는 이미지는 RGB 픽셀값, GPS, 심도 등 사진의 경우 카메라가 기본적으로 제공하는 문자로 된 메타데이터뿐이다.(엄밀히 말해 문자도 아닌, 0과 1로된 데이터뿐이다) 그렇다면 코끼리 사진을 컴퓨터는 어떻게 인지할 수 있을까? 가장 간단한 방법은 인간이 파일명으로 메타데이터에 ‘코끼리’라고 넣어주는 것이다. 그러면 컴퓨터는 이 사진 파일을 코끼리라 검색한다. 인지해서가 아니라 그냥 파일명을 검색하는 것이다. 그런데 사용자가 코끼리를 코뿔소라 잘못 입력하면 전혀 다른 값이 되어버린다. 다시 말해 컴퓨터는 우리가 말해주는대로만 사물을 인지하는 장님일 수밖에 없는 것이다.

4.jpg
사람이라면 위 이미지들이 모두 코끼리 이미지임을 알 수 있지만 컴퓨터는 그럴 수 없다.

그럼 파일명을 제외하면 코끼리 이미지 파일을 어떻게 컴퓨터에 코끼리로 인지시킬 방법은 없을까? 사람의 경우 학습을 통하여 큰 귀, 긴 코, 회색 피부, 두꺼운 다리를 종합 인지하여 코끼리라 판단한다. 막 언어를 배우기 시작한 어린 아이는 전혀 다르게 보이는 실제 사진과 추상화 된 그림(위 사진)을 보고 모두 같은 코끼리라고 판단한다. 과학자들은 이런 학습 과정을 컴퓨터에도 도입하고 싶어했다. 하지만 앞서 지적한대로 컴퓨터에게는 뇌와 연결된 인지감각기능이 없다는 점이 문제가 되었다. 사진 몇 장 보여주며 이것들이 다 코끼리라고 알려줘도 전혀 다른 모습의 코끼리 사진을 따로 보여준다면? 컴퓨터는 장님으로 돌아간다.

그렇다면 컴퓨터가 두 사진 모두 코끼리라 인식하려면 어떻게 해야 할까? 결론부터 말하면 수많은 사진들의 윤곽선을 검출하고 분류하는 것이다. 수많은 사진(빅데이터)에서 검출된 윤곽선 중 긴 코, 큰 귀에 해당되는 사진을 추출하고 대조한다. 그리고 코끼리의 형상을 통계화(수치화)하여 새로운 이미지가 검색되어 비슷한 윤곽선이 나오면 코끼리라 추정한다. (물론 이렇게 해도 컴퓨터는 노이즈라는 오류에 시달리기에 전혀 다른 결과를 뽑아내기도 한다. 그러나 여기서는 쉽게 설명하기 위해 여기까지만 서술하고 보다 자세한 처리 과정은 생략하기로 한다)

5.jpg
OS X Photos 앱의 Face 기능: 등록된 사람하고 비슷한 얼굴을 검색하여 같은 사람으로 추정하여 보여준다. 
등록된 얼굴 사진이 많으면 많을 수록 정확도는 올라간다.

수많은 데이터를 통하여 컴퓨터가 학습하고, 이를 통해 판단을 내리는 것이 바로 ‘딥 러닝’이다. 바로 인공지능의 시작이라 할 수 있다. 

여기에 사람을 대입해 보면 상체를 벗었는지, 하체를 벗었는지 어떤 포즈를 취했는지를 검출해 낼 수 있게 된다. 이미지만 학습할 수 있는 게 아니다. 딥 러닝은 문장뿐 아니라 문맥을 판단할 수 있고 영상을 보고 상황을 판단할 수 있으며 그것을 종합하여 범죄 여부까지 판별할 수 있다. 그러므로 딥 러닝이 보다 발전하면 컴퓨터가 사람보다 더 정확하게 판결을 할 수도 있겠다.

IT기업이 ‘딥 러닝’에 관심을 가지는 이유는 언제나 ‘돈’ 때문이다. 특정 컨텐츠를 추출해 제공하는 서비스의 가치를 높일 수 있는 방법은 보다 정확한 정보를 얻는 것에서 출발한다. 정보의 정확성은 권력이 될 수도 있다. 

이런 딥 러닝 기술은 구글 나우, 시리 같은 음성인식, 스포티파이, 애플 뮤직의 큐레이션 그리고 구글 이미지 검색 등 도처에 두루 사용되고 있다. 뿐만 아니라 이 기술은 추후 자율 주행 자동차의 핵심 기술로 떠오를 것이다. IT 기업이 딥 러닝에 관심을 안 가질 수 없다.


3. 성인 컨텐츠 제한

6.jpg
세이프 서치를 켜면 음란한 사진이 검색되지 않는다. 
(위 모자이크된 이미지와 동일한 검색어 ’nude’로 검색한 결과 화면이다)

구글이 딥 러닝 기술을 검색에 도입한 사례 중 하나가 ‘세이프 서치’다. 수억의 컨텐츠 중에서 특정 사진과 특정 내용을 제한하기 위해서 ‘딥 러닝’기술을 유용하게 사용하고 있다. 구글은 인터넷에 돌아다니는 ‘모든’ 컨텐츠를 검색 대상으로 삼고 있다. 구글은 그것을 이용하여 광고를 얻고 돈을 벌어왔다. 사용자들에게 모든 컨텐츠를 여과 없이 검색하게 하는 것이 ‘구글’이 가지고 있는 절대적인 차별성이다. 검색 결과는 사용자의 욕구를 고스란히 반영하였고 그 결과 사용자를 들여다 볼 수 있게 되었다. 그리고 그 과정에는 어떠한 규제도 없다. 몇몇 나라를 제외하고는.

애플의 경우에는 iOS, OS X 등 OS 차원에서 성인컨텐츠를 제한할 수 있고 iTunes 에서도 성인컨텐츠를 제한할 수 있다. 한발 더 나아가 애플 앱스토어는 ‘성인 컨텐츠’ 자체를 허가해주지 않고 있다. 애플 보다는 수위가 낮지만 구글의 광고 플랫폼 ‘애드 센스’도 과도한 성인 컨텐츠를 제한하고 있다. 

그런데 이번 사태의 핵심은 그것이 아니다. 성인 컨텐츠 제한은 사용자들 자율에 맡기거나 유료 컨텐츠 판매회사의 방침에 따른 것이다. 공개된 자료를 특정 국가 사용자들에게 강제로 제한하는 것과 비교할 수 없다.


4. 구글의 강제, 정부의 통제

7.jpg

이미 한국 정부는 warning.or.kr로 국가 차원에서 음란사이트를 차단하고 있다. 국내 홈페이지, 국내에 들어오는 홈페이지를 정부가 나서서 통제하고 있는 것이다. 이번 구글 세이프 서치의 강제 적용이 정부의 입김이 들어 갔다고 강력히 의구심을 제기하는 건 이런 전적 탓해 어찌보면 당연해 보인다. 

구글이 이런 강제 기능을 우리나라 소아, 청소년을 위하여 스스로 설정했을 리가 없다. 더 많은 사이트 검색이 그들의 먹거리인데 그것을 제한할 이유가 없기 때문이다. 구글은 원래부터 컨텐츠의 음란성에 대해 관심이 없었고 지금도 그 방침은 별로 달라지지 않았다. 구글의 이미지 검색에서 특정 키워드를 검색해보면 지나칠 정도로 모든 결과물을 보여준다. 그것이 구글의 돈벌이 수단이자 강점이기 때문이다.

그런데 구글은 웹 검색에서 한국에서 절대 강자가 아니다. 많은 사람들이 구글보다는 네이버, 다음에서 검색을 하고 있다. 물론 최근 모바일로 검색하는 비율이 올라가면서 구글이 예전보다는 많이 사용되고 있지만 아직까지 우리나라 검색의 절대적인 지위는 네이버와 다음이다.


8.jpg
9.jpg
네이버는 그린인터넷 캠페인, 다음은 청소년 부적합 결과로 컨텐츠를 제한한다

네이버, 다음은 이미 성인 컨텐츠를 제한하고 있다. 더 많은 결과물을 보기 위해서는 실명이 확인된 ID로 로그인 해야 하는데(성인 컨텐츠 노출 금지는 비단 국내 포털사이트만 해당되는 건 아니다), 실명 인증한 후 검색하는 이미지들 또한 하나같이 선량하다. 검색기술이 형편 없어서인지 아니면 다른 이유 때문인지 성인 컨텐츠는 성인에게도 검색되지 않는다. 국내 포털 사이트들은 이미 정부가 통제하고 있다고 생각된다.


5. 찝찝한 결론

10.jpg
2015년 9월 7일 월스트리트 저널의 기사, 구글은 중국을 원한다.

구글은 수익을 목표로 하는 기업이다. 더 많은 사이트의 검색이 먹거리이긴 하지만 자신의 원칙을 고수하는 것이 수익에 악영향을 준다면 과감히 포기할 수 있다. 구글은 2010년 중국에 자신의 검색에 대한 원칙을 관철하려다 실패했다. 결국 명분은 중요하지 않다. 구글은 아주 큰 시장을 뺏겨버린 것이다. 이후의 구글은 중국 시장을 다시 찾고 싶어 안달하는 모습을 보여줬다. 중국 정부는 구글의 검색에 대한 원칙고수에 쾌재를 불렀을 테고 자국의 기업에 힘을 실어줄 명분을 얻었다. 그 결과 구글의 중국 활동은 제한적일 수밖에 없었고 2015년, 구글은 중국에 다시 진출하려고 한다.

필자는 중국 시장 진입 실패가 구글이 타국 정부를 대하는 태도에 상당 부분 영향을 줬을 것으로 생각한다. 한국은 인터넷 트래픽이 절대 낮은 나라가 아니다. 그 시장은 기술력이 형편없는 자국산 포털이 자리잡고 있다. 최근 모바일 급부상으로 구글의 입지도 예전에 비해 올라갔다. 한국 시장에서 구글은 성장할 여지가 많이 있다. 또한 한국 시장에서 어떻게 하는가가 장차 중국 시장이라는 '코끼리'를 만져야 하는 구글에게 있어 좋은 '학습'일 수도 있다.

시장을 잃지 않기 위해서라면, 구글은 모든 것을 검색한다는 자신의 명분을 ‘정부’에 입김에 따라 흐려지도록 내버려둘 수도 있다. 얼마든지.

물론 이번 세이프 서치 강제 적용에 정부의 입김이 작용 되었는지 아닌지는 현재 알 수 없는 상황이다. 그러나 만약 정부의 입김이 있었다는 사실이 확인된다면 구글은 오히려 시장을 잃을 수도 있다. 어쨌든 인터넷을 적극적으로 사용하는 사용자들에게 검색이 제한된 구글은 더이상 메리트가 없기 때문이다.

우리가 구글에게 기대하는 건 인공지능을 갖춘 검색에서의 ‘딥 러닝’이지 정부와 함께 사용자를 통제하고 규제를 하기 위해 그 기술을 악용하는 것이 아니다. 여하튼 찝찝하다.




 trexx

트위터 : @trexxcom


편집 : 딴지일보 퍼그맨