최신 기사 추천 기사 연재 기사 마빡 리스트






현재의 유전자 분석 - 시퀀싱 (Sequencing) + 생명 정보학 (bioinformatics) + 빅데이터


시퀀싱은 유전자라는 책에 쓰여진 문장이 뭔지를 알려주는 기술이다. 객관식 질문에만 답을 얻던 것에서 이제 주관식 질문의 답도 얻을 수 있게 된 것이라고 할까. 시퀀싱이라는 기술이 처음 개발된 것은 이미 1960년대인데 비슷한 시기에 두 명의 연구자가 독립적으로 다른 방법을 발견해내서 둘 다 공동으로 노벨상을 받았다. 그 두 가지 방법 중 더 널리 쓰이게 된 기술의 개발자의 이름을 따서 최초의 시퀀싱 기술은 생어(Sanger) 시퀀싱이라고 부른다.


Frederick Sanger2.jpg 

얼마 전 타계하신 프레데릭 생어 옹. DNA, RNA, 단백질 시퀀싱의 그랜드 슬램을 달성하신 분

이 양반이 시퀀싱으로 탄 노벨상은 두 번째 노벨상이었다는... ㄷㄷㄷ


Image result for sanger institute 

그의 이름을 따서 만든 영국의 생어 인스티튜트

시퀀싱 바닥에서 껌 좀 씹었다 하는 사람들이 모여 있는

세계의 양대 산맥 중 하나라고 보면 된다.


우중산보와 같은 느릿느릿한 걸음이기는 하지만 그래도 생어 시퀀싱으로 유전체학자들이 수십년간 재미를 봐 오고 있었다. 그러던 중, 2005년쯤에 나타난 두 이단아들의 신기한 발상에 의해 이 바닥에도 거대한 지각변동이 시작된다. 기존 생어 시퀀싱과는 조금 다른 원리를 이용한 두 가지 새로운 시퀀싱 기법이 개발되는데, 기존에 비하여 퀄리티는 떨어지지만 읽을 수 있는 양이 비교도 안될 만큼 많은 새로운 시퀀싱 시대가 도래한다.


이를 차세대 시퀀싱, 영어로는 Next Generation Sequencing 이라고 하고, 흔히 줄여서 NGS(요건 기억하자, NGS) 라고 부르는 것들이 나오기 시작한다. 두 가지 기술 중 한 가지는 사장되었고, 나머지 하나가 살아 남아 전세계적 독점 수준으로 커 버리게 된다. 기존의 생어 시퀀싱이 필름 카메라로 한 장 한 장 사진을 찍는 방식이라고 한다면, NGS는 화질은 조금 떨어지지만 초고속 연사가 되는 디지탈 카메라로 수백 만장의 사진을 순식간에 찍어 버리는 것이라고 생각하면 된다.


이건 마치, 한반도 전 지역을 사진으로 찍어서 남길 목적으로 누군가가 고산자 김정호의 발자취를 따라 전국 팔도를 발로 걸어다니며 장장 10년에 걸쳐 수 만장의 필름 사진을 찍고 있는 와중에, 갑자기 누군가가 나타나서 하늘에 인공위성 띄우고 초고속으로 날아가며 한두 시간만에 전국을 대상으로 수억장 이상의 사진 난사를 하고 메모리에 담아서 내려오는 거라고 생각하면 된다. 뿜어져 나오는 정보의 양이 기존과는 비교도 안 될 정도가 되어 버린 거다. 조금 떨어지는 퀄리티는 양으로 극복해 버리고.


문제는, 한반도의 사진을 많이 찍어 놓기는 했는데, 이게 어디를 찍은 것인지에 대한 정보는 없는 사진들인 거다. 파일명도 랜덤이고. 그래서 이 작은 사진들을 모아 붙여서 커다란 한반도 사진을 만들려면 사진속 이미지를 토대로 어마어마한 퍼즐 맞추기를 해야 하는데, 이게 또 엄청난 작업인 거다. 게다가 울창한 숲만 계속 되는 곳의 사진들만 수 천장이 찍혀 있으면 대략 난감.


이 퍼즐 맞추기를 컴퓨터로 시키다 보니 유전체학은 컴퓨터학에게 SOS를 치게 된다. 이래서 나온 학문이 생명 정보학(Bioinformatics). 생물 전공자들이 컴퓨터를 배워서 하기도 하고, 반대로 컴퓨터 전공자들이 생물을 배워서 하기도 한다. 어떻게 하면 퍼즐 맞추기를 좀 더 쉽고 정확하게 할 것인가에 대한 알고리즘 개발 외에도 수 많은 작업들을 한다.


download.jpg 

덴마크의 한 생명정보학 회사가 홍보용으로 만든 티셔츠.

어쩌다 보니 모든 학문에게 까이고 있는 로켓과학.

이 대열에 생명정보학도 동참했다.

애들에게나 줘 버리란다.


생명정보학과 시퀀싱의 발전으로 유전자의 꽤 괜찮은 사진이 나왔는데, 다음 문제는 어느 유전자가 어느 형질에 영향을 미치는지를 알아내는 것이 되었다. 인공위성 사진들로 완성된 한반도 이미지에 지역 이름을 써 나가는 것이라고 보면 된다. 여기는 서울, 여기는 대전 이런식으로. 이런 정보가 없다면 인공위성 사진들은 그저 거대한 이미지일 뿐이지 지도로서의 기능은 할 수 없기에 매우 중요한 작업이다.


이 작업은 인공위성 지도를 제작하는 관점에서는 상대적으로 쉬울지 모르겠지만, 유전체학에서는 상당히 어려운 일이다. 왜냐하면 지도에서는 서울은 항상 서울, 대전은 항상 대전이겠지만, 유전체 학에서는 한 유전자가 A에 영향을 미치기도 하고 B에 영향을 미치기도 하고, 또 동시에 서너개의 유전자가 한 가지에 영향을 미치기도 하는 식으로 유전자형(genotype)과 표현형(phenotype)이 1:1 매치가 되지 않기 때문이다. 게다가 같은 유전자라 하더라도 포스트잇에 어떻게 적어가느냐에 따라 다르다 보니 한 유전자가 만들어 낼 수 있는 단백질의 종류도 어마어마하게 다양하다.


PMC3195439_JNA2012-162692.001.png 

맨 위에 있는 막대기가 염색체 상에 존재하는 유전자들 중 알맹이만 추려서 놓은 녀석 (cDNA라고 한다)

이 영역이 만들어 낼 수 있는 다양한 단백질들이 아래 주욱 늘어 놓은 여러 막대기들이다.

어느 블록을 빠뜨리냐 넣느냐에 따라서 수많은 다양한 단백질이 만들어진다.

이미지 출처 - (링크)

 

따라서 이것은 결국 수많은 사람들의 유전체를 토대로 그들의 표현형 + 생활 습관 + 환경적 요소를 종합적으로 판단하여 그 상관관계를 찾아야만 알 수 있다. 수백 만명 이상으로부터 수집한 유전체 정보와 각 사람들이 가지고 있는 30억 개의 시퀀스, 그리고 수 만가지 이상의 개개인의 형질에 따른 통계학적인 연구가 필수적이 된다. 이를 위해 일부 앞서가는 나라들에서는 자국민을 대상으로 유전체 데이터베이스를 만들기 위한 국가적 사업이 이미 시작 되고 있고,


97279fd31ca2e1050b23c94f057daac3--rare-disease-orphan.jpg

영국은 뭐든 빠르다. 이미 자국민 10만 명 유전체 분석이 꽤 많이 진행됐다.


Afbeeldingsresultaat voor chinese genome project how many 

중국은 모든 신생아의 지놈 분석(유전자 분석 서비스가 아니라 그냥 통째로 지놈을 다 읽어버리는)을 준비중이다.

역시 대륙의 스케일. 우리 나라도 조금 뒤늦기는 했지만 뭐 시작하기는 했다.


게다가 사람은 연구자 마음대로 교배할 수 있는 대상이 아니다 보니 모집단의 균일성을 유지하기도 쉽지 않다. 따라서 고려해야 할 요소가 상상도 할 수 없게 많다. 그래서 현재의 유전체학은 NGS기술 + 생명정보학 + 빅데이터 및 관련 기술, 이 셋이 삼륜차의 세 바퀴가 되어 맞물려 돌아가고 있다. 아마도 비트 코인 채굴하는데 쓰이는 컴퓨터들을 제외하면 전세계적으로 가장 많은 컴퓨터 리소스가 쓰이고 있는 분야가 생명 정보학 관련 분야가 아닐까 싶...(은데... 근거가 있는 것은 아니다)


뭐. 암튼, 여기까지가 현주소이다.


이 거대한 그림에서 개인별 유전자 분석 서비스는 최신 기술에 비하면 새발의 피 수준의 기술력과 최소한의 분석 데이타만을 가지고 제공되는, 일반인을 대상으로 이제 막 오픈 한 서비스라고 보면 되겠다.


문제는...


유전자는 꽤나 복잡하다


위에서 이야기한 것처럼 유전자형와 표현형은 1:1 관계가 아니다. 지금까지 인류가 모집해 본 그 어떤 종류의 데이터베이스보다 더 방대하고 난해하고 맞추기 어렵고 규칙성을 찾아내기가 힘들다. 아직까지 인류가 완벽하게 치료 가능하다고 말할 수 있는 질병이 손에 꼽을 정도인 것처럼, 유전자형과 표현형의 관계가 명확하게 규명된 유전자는 그리 많지 않다. 그리고 관련이 있다 하더라도 모 아니면 도 식이 아니라 관련이 있을 확률 몇 %의 개념이다. 따라서 유전자 분석 데이터를 전적으로 믿는 것은 위험하다. 이거 해결하려고 오늘도 수많은 유전체학자들과 생명정보학자들이 박터지게 고민하고 있다.


두 번째로


아직 우리가 유전자에 대해서 잘 모른다


1990년대까지만 해도 모든 생물은 A, T, G, C 네 가지 베이스로 이루어진 시퀀스에 따라서 모든 것이 결정 된다고 착각하고 있었다. 그런데 갑자기 후성생물학(epigenetics) 이라는 것이 나타났다. 이게 뭐냐면, 저 A T G C에 아주 미세한 혹(?)이 하나씩 달리는 것에 따라서 그 효과가 달라진다는 거다. 도서관 비유를 다시 들자면, 여태까지는 영어식 알파벳으로 ABCDEFG...만 공부를 해 오고 있었는데 갑자기 šťastné 이런 알 수 없는 점이 찍히면서 어떻게 읽어야 할지도 모르는 단어들이 나타나기 시작한 거다. 얘네들이 미치는 영향? 아직까지도 다 모른다. 왜 어떤 것은 영향이 있고 어떤 것은 영향이 없는지도 모른다. 이런 새로운 녀석이 나타나기 시작하니 또 새로운 사실들이 발견된다.


예를 들면, 그동안 전통 생물학의 입장에서는 암컷의 난자는 그 숫자가 제한되어 있기 때문에 난자의 연령, 즉, 산모의 연령이 임신 가능성이나 태아 성장에 절대적인 영향을 미치는 반면, 수컷의 정자는 "밥숟가락 들 힘만 있어도 계속 생산이 되기 때문에 남성은 자손 생성에 별 영향이 없을 것이다." (덕분에 남자는 나이가 많아서 젊은 여자를 만나서 자식을 만들면 된다는 이상한 논리로까지 발전한) 라는 입장을 견지해 오고 있었는데, 2015년에 떡 하니 이런 논문이 나왔다.


Untitled-1 copy.jpg 

원문 - (링크)


남자가 늙으면 후성생물학상의 영향으로 정자의 퀄리티가 떨어져서 이는 후대에 영향을 미칠 수 있다는 연구 결과. 남자에게도 적절한 파종 시기가 있다는, 수컷도 방심하면 안 된다는 이 사실. 불과 2년 전에 알게 되었다. 아직 우리는 우리에 대해서 모르는 게 너무 많다. 그나마 모르는 게 많다는 것을 알게 된 것이 큰 다행이라고 해야 할까.


세 번째로,


인간은 환경의 지대한 영향을 받는다


주변에서 혹시 일란성 쌍둥이를 본 적 있나? 얼핏 보면 엄청 비슷해 보여도 사실 둘은 항상 구분이 간다. 부모 눈에는 천지차이만큼이나 다르게 보인다. 이 둘은 유전적으로 100% 동일한 클론임에도 불구하고 각자의 외모적 특이성과 성격을 지닌다. 우리가 지금까지 쌓아 온 생물학 지식으로는 쌍둥이는 모든 것이 완벽하게 같아야 하지만 사실은 그렇지 않다. 뭐가 그런 영향을 미치나? 아마도 환경일 텐데 환경이 개개인에게 어떻게 영향을 미치는지는 아직 잘 모른다.


우리가 파악한 '모르는 것'들 만도 최소한 세 가지이다. 저 세 가지가 만들어내는 조합만 해도 무궁무진하다. 인류의 기술이 더 발전한다면 결국은 알게 되리라 생각하지만, 현 시점에서 유전자 검사는 이런 점까지 알기는 어렵다. 우리가 1990년대 생물학에 비해서 현재 알게 된 가장 큰 지식은 아직까지 모르는 게 많다는 것을 알게 된 것이라고까지 말할 수 있다.


그렇다면 이런 불완전한 기술이 벌써 일반 시장에 나왔나?


수많은 모르는 것들 중, 이제 이 정도면 알만 하다 싶은 것들이 몇 가지가 있다. 그리고 그런 것들을 미리 알고 있으면 평소 생활 습관 등을 조절함으로써 더 큰 위험으로 발전하는 것을 막을 수 있다. 이 연재 첫 글에서 이야기했던 안젤리나 졸리와 같이 유방 자체를 절제해 버리는 것은 솔직히 필자 개인적으로는 오버라고 보는데(아무리 인공물이 발달해도 날 때부터 타고난 것보다 나을 수는 없는 것이 현재의 기술 수준), 그 정도까지는 아니더라도 일상 생활에서 필요한 수준의 일부 지식, 예를 들면 카페인이나 알콜 대사를 잘 못하는 형질을 가진 사람은 좀 줄이고 산다 거나, 아니면 내가 지금은 머리 숱이 많아도 훗날 탈모의 위험성은 어느 정도 되는지, 피부 색소 침착이 잘 되는 체질이라서 선크림을 잘 발라야 할지 정도는 어느 정도 신빙성 있게 분석이 가능하다.


또, 우리 나라에서는 서양 만큼 큰 관심은 없겠지만, 자신의 조상이 지구의 어느 지역에서 왔는지를 구분해 주는 것도 가능하다. 한중일 3국과 같이 유사한 인종도 꽤 높은 정확도로 그 사이에서의 구분이 가능하다. 그래서 내 유전자 중 몇 %는 한국인, 몇 %는 중국인, 몇 %는 일본인이며, 심지어는 네안데르탈인의 유전자가 몇 % 정도 남아 있는지도 알 수 있다.


b0016211_46cdb90646be6.jpg


그렇다면 어떤 유전자 분석 서비스는 피해야 할까.


우선, 뭉뚱그린 형질을 봐 주겠다고 하는 서비스는 사짜일 가능성이 높다. 예를 들어, 자녀가 공부를 얼마나 잘 할 수 있는 머리를 가지고 있는지 알 수 있다는 식의 광고를 하는 것은 피하는 것이 좋다. 인간의 지능이라는 것은 한 단어로 퉁쳐서 설명하기에는 너무나도 많은 형질의 집합체이다. 공간 지각 능력, 연산 능력, 기억 능력 등등 뇌의 수많은 복합적인 요소들이 섞여 있는 것이 지능인데, 이에 관여하는 유전자들의 개수는 상상도 할 수 없을 만큼 많을 것이고, 또 위에서 이야기 한 대로 1:1 관계일리는 더더욱 없다.


물론 과학자들이 발표한 논문들 중에는 특정 유전자와 가방끈 길이와의 상관관계 같은 논문들이 있지만, 그게 지능이라고 이야기 하기는 어려울 뿐만 아니라 연구자들도 그게 상관관계인지 인과관계인지, 아니면 우연히 그렇게 나온 것인지는 확신하지 못한다. 자녀가 축구 선수로 성공할 확률을 계산해 준다거나 하는 서비스들도 피하는 것이 좋다. 유전자가 무슨 토정 비결도 아니고 그걸로 미래를 재단할 수 있게 해 주는 서비스들은 철저히 지양해야 한다.


그리고 가급적이면 좀 이름 있는 업체, 큰 업체, 그리고 자체 분석 시스템을 갖추고 있는 업체를 선택하는 것이 조금 더 안전하다고 볼 수 있겠다. 개인적으로는 온전히 일반 소비자 시장을 위한 분석 서비스만을 내놓은 회사들 보다는 기존 연구자 시장, 즉, 과학자들을 대상으로 좀 더 전문적인 유전자 분석 서비스를 제공하던 역사가 있는 업체들이 좀 더 신빙성이 있다고 보나, 이 부분은 철저히 개인적인 부분이라 세게 이야기 하지는 않겠다. (정 궁금하시면 쪽지 주시라)


또한 예제 리포트를 통해 정확히 어떤 유전자의 어떤 변이를 보는지, 그와 관련한 논문은 어느 정도 공신력이 있는 저널에 발표된 것인지들도 확인해 보는 것도 좋다.


가장 중요한 것은 그 리포트가 자신의 운명이라고 받아들이면 안된다는 것이다. 좀 더 건강한 생활을 위해 신경 쓰면 좋은 정보 정도로 보는 것이 가장 현명한 길이다. 안젤리나 졸리와 같은 극단적인 선택은 절대로 해서는 안 되고, 건강 보조 정보, 혹은 호기심 해결 수준을 크게 벗어나서는 안 될 것이다.


이 점을 잘 명심하고...


다음 글에서는 한번 실제 리포트가 어떻게 나오는지 살펴 보도록 하자.


궁금한 점은 리플로 달아 주시라.





지난 기사


유전자 분석 서비스에 대해 알아보자

유전자가 무엇인지부터 알아보자

울 엄마가 친엄마란 건 어떻게 알 수 있을까





CZT


편집 : 꾸물

Profile