최신 기사 추천 기사 연재 기사 마빡 리스트

 

“바이든 vs 날리면”

 

최근 온 나라가 이것 때문에 시끄러웠고, 아직도 진행형이다.

 

mbc.jpg

김은혜 굿모닝 충청.jpg

출처-<굿모닝충청>

 

정부에서 말도 안 되는 거짓말을 해대도 믿는 사람이 없으면 이렇게까지 사태가 지속되진 않았을 텐데, 아직도 29%의 사람들은 “날리면"이라고 목소리 높여 주장한다. 그래서 이 글을 쓰게 됐다.

 

아시아경제.PNG

 

출처-<아시아경제> 링크

 

왜 이들은 ”날리면"으로 들었을까? 

 

 

우선, 나는 소리 전문가다

 

나는 소리 전문가다. 한국에서 전자공학과(음향공학, 음향 신호처리) 석사를 밟았고, 미국에서 음성청각학으로 박사를 취득했다. 박사논문 주제는 인간의 언어 인식이었다. 박사를 마친 후, 포닥(박사 취득 후 정규직 연구자로 일하기 전 과정) 생활을 하면서는 인공와우에 꽂혔다. 인공와우의 기술적 배경과 농인들의 삶을 어떻게 직접적으로 변화시켜주는지에 대해 연구했다. 

 

포닥 후엔 인공와우 회사로 들어가서 관련 연구를 하고 시제품 개발에도 참여했다. 5년간의 회사 생활 후 대학으로 자리를 옮겨 교수로 활동했다. 13년 간의 교수 생활을 마친 후, 현재는 음성신호 처리에 관련된 프로그램을 설계하고 개발하는 소프트웨어 엔지니어로 일하고 있다. 나에게는 이 일이 너무 재미있고, 천직이다.

 

인공와우.PNG

인공와우

 

(내 입장에선 간단하게 말했지만) 왜 이렇게 주저리주저리 내 경력을 늘어놓았냐. 누가 봐도 명백한 “바이든”이란 음성을 왜 29%의 사람들은 “날리면”이라고 들었는지 음성학적으로 설명하기 위해서이다. 92년 석사 시작 때부터 지금까지 30년간 소리, 음성에 관련된 일을 하고 있으니, 이 사태에서 조그마한 목소리 정도는 내볼 수 있지 않은가 생각한다.   

 

(시간이 없으셔서 결론만 알고 싶은 분들은 마지막 소제목 부분만 봐도 될 듯하다. 다만 인간이 어떤 방식으로 음성을 인식하는지 재밌게 예를 들어가며 설명해볼 테니, 어디 가서 유식하게 ‘날리면’이라고 듣는 이들에게 한마디 해주고 싶은 분들은 처음부터 읽어주시면 좋을 듯하다)     

 

 

날리면 사태, 전문가가 나설 일이 아니다

 

‘바이든 vs 날리면’ 사태 발생 초기, 일부에서 전문가가 나서서 음성을 객관적으로 분석하고, 그 결과에 입각해서 진실을 알려주면 좋지 않을까 하는 의견이 있었다. 

 

그러나 내 생각은 전혀 달랐다. 

 

“아, 이건 전문가가 나설 일이 아닌데”

 

지금도 그 생각에는 변화가 없다. 몇몇 기사를 보니 민주, 보수 양측 진영에서 소위 전문가에 해당하는 인사들에 접촉해서 한 말씀 해주시라 부탁을 했던 것 같다. 다들 거절했다고 한다. 충분히 이해가 간다. 

 

연합뉴스.PNG

출처-<연합뉴스> 링크

 

보수 쪽에서 ‘자칭’ 소리 전문가 한둘을 찾아서, 욕도 없었고 ‘날리면’으로 분석되었다, ‘날리믄’으로 분석되었다는 주장도 보았는데, 임팩트가 별로 크지 않다고 본다. 그들은 진짜 소리 전문가가 아닌 것이 명백하니까.

 

나는 왜 전문가가 나설 일이 아니라고 생각했는가? 이유는 간단하다. 

 

“너무나 명백히 들리니까”

 

발음.jpg

제가 발음이 좀 좋습니다. 하하~

 

 

절대적 전문가 맹신 문화는 좋지 않다

 

세상에는 전문가가 아니어도 쉽게 알 수 있는 것이 많다. 그런 사안에는 전문가를 동원할 필요가 없다. 아니, 하면 안 된다. 한국 사회에는 전문가 맹신 문화가 있다고 본다. 건강한 문화라고 할 수 없다. 나의 생각이나 느낌을 혼자 주장할 자신이 없어서 그런가? 나를 지지해 줄 만한 큰 권위를 가진 누군가를 찾아서 그에 기대려는 심리가 많다.

 

우리는 과거에도, 전문가를 맹신했다가 욕본 사례가 있다. 

 

4대강이 그랬고, 코로나가 그랬다. 4대강 사업을 보자. 이명박 정부 당시 우려하는 목소리가 일반인들에게 있었고, 소위 전문가 그룹에서도 있었다. 그러나 보수 정권에서는 자기 입맛에 맞는 몇몇 전문가들의 의견만 전면에 내세웠다. 

 

코로나 백신은 어떻고? 코로나의 경우, 진짜 전문가들이 많이 매체에 나와 백신의 효용성과 중요성에 대해 입이 아프도록 설파했다. 그러나 일부 전문가의 탈을 쓴 가짜 전문가, 정치적 목적을 띤 이들이 나와서 한두 마디 음모론적 주장을 해댔고, 많은 이들이 거기에 넘어갔다. 

 

아무리 많은 진짜 전문가들이 매체에 나와 주장을 해도, 전문가의 탈을 쓴 가짜들이 그에 반하는 소리를 하면, 많은 사람들은 

 

그렇구나구나.PNG

 

“아~ 그렇구나. 이 문제는 논쟁의 소지가 있는 이슈구나”

 

라고 받아들인다. 사회적으로 이 영향은 상당히 크다. 

 

예를 들어, 총 100명의 전문가 중 어떤 사안에 있어 99명이 찬성, 1명이 반대하는 모습이 대중에게 비춰진다고 해보자. 대중들의 찬반 비율은 전문가의 주장 비율과는 많은 차이가 난다. 대중들의 찬반 비율은 ‘99 : 1’이 아니라 ‘70 : 30 혹은 60 : 40’으로 나타난다. 

 

즉, ‘바이든 vs 날리면’ 사태처럼 명확한 일마저 무조건 전문가를 동원하는 문화는 좋지 않다. 사실 이처럼 명확한 사안에서는 전문가도 전문 지식으로 판별하는 것이 아니다. 일반인들처럼 귀로 들어서 판단하고, 단지 그에 맞춰 전문 지식을 약간 섞어서 설명하는 것 정도이다. 다시 한번 말하지만, 이런 경우 전문가의 의견 같은 건 별거 아니다.

 

사람의 음성 인식이란 건 그렇게 언어학 (주로 음성학) 교과서나 전자공학의 신호처리 교과서에 나오는 대로 퓨리에 변환(Fourier transform)을 통해, 요술 방망이처럼 이건 이것, 저건 저것, 그렇게 딱 부러지게 이루어지는 과정이 아니다.

 

교과서의 내용이 틀리다는 것이 아니다. 당연히 교과서에서 나오는 케이스도 실제로 존재한다. 그러나 실생활에선 교과서에 나오는 것처럼 딱 떨어지는 경우보다도, 그렇지 않은 경우가 훨씬 많다. 교과서에는 발음의 모범 케이스가 하나씩 나올 뿐이다. 실제는 엄청나게 많은 변이된 발음들이 존재한다. 전문가 혹은 박사들이 하는 일은, 그렇게 하나로 맞아떨어지지 않는 사례들을 모아서 연구하고 새로운 패턴을 발견하고 우리의 지식 범위를 넓혀나가는 것일 뿐이다. 

 

날리면 사태에서 매체에 등장하는 자칭 전문가들과 달리, 어떤 전문가들은 파형과 스펙트로그램을 자세히 관찰한 후, 여기에 ‘바’라는 파열음이 분명히 있다고 분석할 수도 있다, 절대 ‘날’로 분석되지 않는다고 말이다.

 

틀린 말은 아닌데, 다시 말하지만, ‘바’라는 파열음은 우리가 그냥 듣기에도 귀에 똑똑히 들린다. 어쩌고저쩌고하는 분석보단 그것이 더 중요하다. 어떤 단어로 듣느냐라는 건 인간의 인식이나 인지 과정에 관련된 것이고, 여기에는 비과학적인 요소, 아니 과학적으로 설명하기 애매한 부분들이 많이 있다. 그러니 우리의 분명한 인식을 의심해서, 분석이니 뭐니 한다고 해서 우리의 주장에 큰 도움이 되는 것이 아니다. 

 

우리의 청각적 인식과 더불어 중요한 또 한 가지가 있다.

 

‘문맥’과 ‘시각적 효과’다.

 

 

인간의 음성인식 과정은 간단치 않다

 

1. 문맥의 중요성

 

몇 년 전 미국 전역을 시끄럽게 만들던 비디오가 하나 있었다. 

 

 

짧은 음성 녹음이 담겼는데, 어떤 이들은 Yanny로 듣고, 다른 이들은 Laurel로 들었다. 양쪽에서는 서로 자기가 맞다고 우겼다. 비슷한 단어도 아니고 같은 소리를 놓고 이렇게 전혀 다르게 인식할 수 있을까?

 

우선 이 음성은 깔끔하게 녹음된 것이 아니었다. 우리가 듣는 대부분의 소리는 제대로 발음되고 제대로 녹음 재생된 것보다도 이렇게 애매하게 나오는 소리다. 그러나 정치적 사안도 아니니만큼 단어와 함께 문장이 나왔다면, 대체로 의견은 통일되었을 것이다. 우리 뇌는 제대로 녹음된 것이든 아니든 정보를 기가 막히게 재정비해서 전체적으로 말이 되게끔 맞추는 능력을 갖추고 있다. 그래서 같은 내용이라도 정보를 재정비하는 과정에서 인지의 시작 부분이 다르면 해석도 매우 크게 달라질 수 있다. 즉, 인간의 음성인식에서는 문맥(context, 바로 그 앞뒤에 있는 말들)이 매우 중요한 역할을 담당한다는 것이다. 음파의 파형이니 스펙트럼이니 하는 분석보다 이것이 몇 배 더 중요하다.

 

2. 시각 효과의 중요성

 

비슷한 맥락에서 McGurk 효과라는 것이 있다. ‘다’라는 발음과 ‘바’라는 발음은 약간 비슷하다고 할 순 있으나 분명히 우리 모두 다르게 인식할 것이다. 하지만 실제 대화에서는 발음이 뭉개지거나 주변 소음 때문에 분명한 파형이 귀에 전달되지 않는 경우들이 많다. 이 경우, 우리의 뇌는 무의식적으로 말하는 사람의 입 모양을 주시한다. McGurk 효과는 우리가 모르는 사이에 시각적 정보가 청각 정보를 압도하면서 음성 인식이 되고 있다는 것을 보여준다. 

 

실험은 다음과 같이 이루어진다. 먼저 눈을 감고 “다”라는 소리를 듣는다. 이게 사실 애매하게 발음되고 녹음된 것이라서 100명이 듣는다면 100명 모두 “다”라고 인식하지는 않는다. 대략 70-80명 정도 그렇게 인식한다고 해보자. 

 

다음으로, 같은 소리를 틀어주는데 비디오를 같이 틀어준다. 소리는 그대로 “다”이다. 그러나 비디오의 입 모양은 “바”를 발음할 때의 입 모양이다. 그러면 아까 “다”라고 인식했던 70-80명 중 대부분은 이것을 “바”로 인식한다. 놀라운 건 이들이 아까와 똑같은 소리를 듣고 있다는 사실 자체를 인지하지 못한다는 것이다. 

 

3. 아직도 모르는 게 많다

 

우리가 음성을 인식하는 다른 사례를 하나만 더 소개하겠다.

 

농인에 해당할 정도로 청력이 거의 없는 사람들은 인공와우를 통해 소리를 듣고 음성을 이해한다. 지난 20년 동안 내가 젊음을 바쳐서 연구했던 주제라서 원래는 날밤 까며 이야기해야 하는 주제지만, 간단히 정리하면, 인공와우를 통해 이들이 듣는 소리는 실제 소리와는 다르다.

 

이식한 인공와우.jpg

이식된 인공와우

 

소리가 달팽이관에서 만드는 신경자극 분포를 모방해서 인공와우가 전류장을 만들고, 그에 따른 신경자극을 만들어 청각적 반응을 인위적으로 만든다. 그래서 이들이 듣는 실제 소리와는 매우 이질적이다. 그럼에도 불구하고 인공와우 사용자들은 소리를 듣고 음성을 이해한다. 

 

이 과정은 대부분 음성학 이론이나 신호처리 교과서 지식으로 설명되지 않는다. 연구 결과들이 쌓이며 어느 정도 설명이 되는 부분은 있나, 한두 마디로 딱 떨어지는 이론과 측정기법이 아직 없다.

 

 

그래서, 29%가 “날리면”으로 듣는 이유

 

여태까지 Yanny vs. Laurel, McGurk 효과, 인공와우 음성인식과정, 그리고 우리가 잡음환경에서 음성인식 하는 과정 등 장황하게 예를 들며 설명했지만, 말하고자 하는 바는 간단하다. 우리의 두뇌는 소리나 음성 신호를 물리적 신호 있는 그 자체로 받아들여서 인식하는 것이 아니고, 꽤 복잡한 처리 과정을 거쳐서 인식한다는 것이다. 

 

여태까지의 설명한 이론들, 즉 전문가적 지식을 일부 동원하면, 왜 29%가 “바이든”을 “날리면”으로 들었는지에 대해 설명이 가능하다. 즉, 그들의 두뇌 활동이 별의별 방향으로 나아가서 객관적인 인지과정을 주관적으로 변화시킨다는 것이다. 이런 사실은 우리 같은 전문가들에게 그리 크게 놀라운 사실은 아니다. 

 

윤석열의 발언 보도 이후, 15시간 동안 “날리면”이라는 주장하는 이가 한 명도 없다가 김은혜가 “날리면”이라고 하니 그때부터 “날리면”으로 들었다고 여기저기서 나오는 이유는 객관적 소리를 그들이 듣고 싶은 대로 듣는다는 것이다. “바이든”으로 들리는데, “날리면”이라고 하는 게 아니라 그들의 희망이 인지과정을 변화시켜 정말로 “날리면”처럼 듣게 된다는 것이다(물론 바이든이라고 들리면서 뻥카치는 사람도 있겠지만). 

 

준비됐어.PNG

 

이 경우는, 전술한 Yanny vs Laurel의 경우와는 다른 케이스다. Yanny vs Laurel는 전혀 사전 준비를 하지 않은 채 듣고 인식이 달랐던 것이고, 이 경우는 이미 머릿속에서 ”날리면’이라고 들을 준비를 하고 들은 것이다. 명백한 차이가 있다.

 

이런 걸 보면, 과거 나치 독일의 사례처럼 진실은 상관치 않는 인간의 맹목적인 믿음이란 참으로 무서운 것이란 생각마저 든다. 

 

 
소리는 어디에 있을까