'과학자와 기자가 만드는 뉴스와 비평' 이라는 표어로 한겨례 신문사에서 2010년 2월경 창간한 사이언스온에서 '낱말의 적자생존에 관한 재미있는 기사' [1] 를 보았다. 기사에서는 낱말들도 진화하는데, 진화하는 과정에서 새로운 낱말이 탄생하거나, 기존 낱말이 사라진다고 한다. 정량적인 수치 자료를 얻는데 사용한 도구는 구글 엔그램이다.
"이 분석이 인터넷기업 구글이 구축한 7개 언어 출판물의 단어 변천을 검색할 수 있는 ‘구글 엔-그램(Google n-gram)‘ 데이터베이스를 활용해 이뤄졌다고 밝혔습니다 (엔-그램은 현재 세계 도서의 4%를 데이터베이스로 구축했다고 알려졌는데, 이곳에서 예컨대 “love”라는 낱말을 써넣고 검색하면 “love”가 현재보다 19세기에 훨씬 더 많이 쓰였음을 확인할 수 있다)."
기사는 연구원들이 발표한 논문 [2]을 바탕으로 소개하고 있는데, 이 논문의 주장의 근거는 책에서 쓰인 단어의 추이를 살펴보면 낱말의 탄생과 소멸을 진화론처럼 설명할 수 있다고 보았다. 단어의 추이를 알려주는 것은 구글의 엔그램이 해주는 것이고, 연구원은 합리적인 실험 방법을 통해 나온 결과를 말이 되게 설명했다. 구글 엔그램은 세계 도서의 약 4% 정도를 DB화 했다고 하는데, 앞으로 DB화가 진행될 수록, 이 연구의 후속판이 나올 것이라 예상된다.
기사에서도 언급한 것처럼, 한세대 30~50년이 흐른 뒤, 이런 연구를 다시 하고, 2000년을 기점으로 인터넷의 발달에 따른 낱말의 생성과 소멸 추이를 보는 것도 흥미 있을 듯 하다. 만약 구글이 50년 뒤에도 살아있다면, 인터넷에서 쓰인 단어의 생성과 소멸 추이도 또한 흥미 있을 듯 하다. 이러한 연구는 트위터를 이용해서 미국의 분위기를 살피거나 [2.5], 정치인에 대한 관심도를 알아내는 [2.7]등 자연어에서 인간의 감성을 추출하는 분야로 확대되고 있다. 한발 더 나아가서, 자연어 처리에 한 획을 긋고 있는 IBM Watson은 2010년 2월 16일, 퀴즈쇼 Jeopardy 에서 인간 참가자를 이기면서 큰 관심을 끌고 있다. 현실적으로 Watson을 이용할 수 있는 분야인 보건 진료 (Healthcare) 에 관한 기사 [2.8, 2.9] 참고.
통계적 분석방법과 관련하여 흥미있는 연구 중 하나는 500년, 그러니까 지금으로 부터 1500년 전에 김씨 성을 가진 사람이 한반도에 10,000명 이었음을 추정하는 논문 [3]이다. 둘다 통계적인 방법을 사용해서 사회현상을 분석하는 논문으로, 이러한 학제간, 다학제 연구는 앞으로 계속 나타나며 우리에게 흥미있는 내용을 많이 전해줄 것 같다.
드디어 구글 엔그램 이야기로 들어가면, 구글 엔그램 서비스는 구글의 컬처로믹스 (Culturomics) 프로젝트를 통해 만들어진 서비스이고, 이를 일반인들에게 공개해서 사용할 수 있도록 했다. 컬처로믹스는 번역하면 '문화체학'이라는 낯선 용어로 번역될 수 있는데 [4, 5], 사이언스지에 발표한 논문 [6]에서 좀 더 자세한 내용을 알 수 있다.
구글의 엔그램 서비스는 n-gram 이라는 정보검색 분야 전문 용어를 서비스 용어로 사용했다는데서 놀랍다. 이는 일반인들이 n-gram 에 대해서 흥미를 가질 수 있고, 몇번 들어보면 자연스레 익숙해지고, 그에 따라 n-gram과 관련있는 다른 IT 기술 용어도 자연스레 익숙해 질 수 있기 때문이다.
한글의 경우, 실제로 포털 사이트에서 구체적으로 어떻게 색인을 하는지 모르지만, 오픈소스 검색 엔진인 Lucene에 들어있는 CJK (Chinese-Japanese-Korean) Tokenizer 를 살펴보면 알 수 있을 듯 한데, 소스코드의 위치는 lucene-3.5.0/contrib/analyzers/common/src/java/org/apache/lucene/analysis/cjk 이다. analysis 폴더에는 세계 각국 언어에 해당하는 소스코드가 들어있는데, 아직 kr 폴더는 없다. CJK Tokenizer는 bigram으로 문자열을 분리하는데, 예를 들면 다음과 같다.
"Example: "java C1C2C3C4" will be segmented to: "java" "C1C2" "C2C3" "C3C4"."
실제로 한글 문서들을 CJKAnalyzer, CJKTokenizer를 사용하여, 검색한 결과의 정확도가 어느 정도일지 궁금하다.
오픈소스와는 별도로, 국내에선 모란소프트가 Monran-CJK 란 이름으로 언어 분석기 소프트웨어를 판매하고 있다. 이 회사가 자사의 소프트웨어를 공개하고, Lucene에 포함시키려는 노력은 하지 않겠지만, 그랬음 좋겠다. 하하
관련기사 [7]은 2006년에 나왔지만, 아직도 유효한 얘기가 많이 들어있는 기사이고, 기사 말미에 적혀있는 멀티미디어 검색의 내용기반 검색은 국내에선 아직 보편화되지 않은 이야기이다. 업로드한 이미지를 바탕으로 검색하는 건 구글 이미지 검색이 대표적이다.
우리가 영어를 배우는 이유 중 하나는 접할 수 있는 정보의 양이 한글에 비해 비교적 많다는데 있다. 구글이 전세계의 정보를 DB화하면 할수록 우리는 구글에 종속될 수밖에 없는데, 우리나라도 한글에 대한 정보만이라도 멋지게 DB화해서 그 자료를 바탕으로 새로운 정보를 창출하는 연구가 진행되면 좋겠다.
마지막으로 이글루스의 검색에 대해서 얘기하고 마치려고 한다. 이글루스는 온네트에 속해 있다가, 2006년경 SK커뮤니케이션즈에서 운영을 맡게 되었다 [8]. 온네트의 나머지 게임산업은 다음이 2011년 11월경 인수했다.
나는 이글루스를 사용한지 얼마 안되서, 검색에 대한 내용만 얘기하고자 한다. 이글루스에서는 2자 이상부터 검색이 가능하다. 또한 이글루스 메인에서 검색하면 Nate의 검색엔진을 사용하는데, 블로그내에서 검색하는 것은 무엇을 사용하는지 모르겠다. 일단 블로그내에서 검색 결과는 검색어 강조와, 검색어가 들어있는 문장이 표시가 안되고, 무조건 해당 문서의 맨 위 3줄만 보여준다. 이글루스에 문의해보니, 지원이 안되서 양해해 달라고 하니, 양해해 드린다.
[1] [수첩] 지난 200년간, 낱말 신생은 줄고 퇴장은 늘고, 사이언스온, 오철우, 2012.3.7
[2] Alexander M. Petersen, Joel Tenenbaum, Shlomo Havlin, H. Eugene Stanley, Statistical Laws Governing Fluctuations in Word Use from Word Birth to Word Death, Physics and Society, 15 Feb 2012
[2.5] Pulse of the Nation: U.S. Mood Throughout the Day inferred from Twitter
[2.7] TrueStory 시즌1 정치인 - 솔트룩스
[2.8] Watson과 헬스케어 - 자연어 처리 및 시맨틱 검색이 임상적 의사결정 지원을 혁신화할 수 있는 방법 (번역 개판)
[2.9] [2.8]의 원 문서, Watson and healthcare - How natural language processing and semantic search could revolutionize clinical decision support, IBM developerWorks, Michael J. Yuan, 12 Apr 2011
[3] Seung Ki Baek, Petter Minnhagen and Beom Jun Kim, The ten thousand Kims, New Journal of Physics, Volume 13, July 2011
[4] 책 500만권에 담긴 트렌드를 추적하라 - 구글이 공개한 컬처로믹스(culturomics) 프로젝트, ScienceTimes, 임동욱, 2011.2.21
[5] [4]에서 그림이 안나와서, 불펌한 블로그 링크
[6] Jean-Baptiste Michel et al., Quantitative Analysis of Culture Using Millions of Digitized Books, Science, December 16 2010
[7] 스스로 진화하는「인터넷 검색 기술」, 지디넷 코리아, 김효정, 2006.1.9
[8] [여의도25시] SK컴즈는 욕설을 권장합니다?, 프라임경제, 노현승, 2012.2.29


최근 덧글