구글 엔그램 (Ngram) 컴퓨터

'과학자와 기자가 만드는 뉴스와 비평' 이라는 표어로 한겨례 신문사에서 2010년 2월경 창간사이언스온에서 '낱말의 적자생존에 관한 재미있는 기사' [1] 를 보았다. 기사에서는 낱말들도 진화하는데, 진화하는 과정에서 새로운 낱말이 탄생하거나, 기존 낱말이 사라진다고 한다. 정량적인 수치 자료를 얻는데 사용한 도구는 구글 엔그램이다. 

"이 분석이 인터넷기업 구글이 구축한 7개 언어 출판물의 단어 변천을 검색할 수 있는 ‘구글 엔-그램(Google n-gram)‘ 데이터베이스를 활용해 이뤄졌다고 밝혔습니다 (엔-그램은 현재 세계 도서의 4%를 데이터베이스로 구축했다고 알려졌는데, 이곳에서 예컨대 “love”라는 낱말을 써넣고 검색하면 “love”가 현재보다 19세기에 훨씬 더 많이 쓰였음을 확인할 수 있다)."

기사는 연구원들이 발표한 논문 [2]을 바탕으로 소개하고 있는데, 이 논문의 주장의 근거는 책에서 쓰인 단어의 추이를 살펴보면 낱말의 탄생과 소멸을 진화론처럼 설명할 수 있다고 보았다. 단어의 추이를 알려주는 것은 구글의 엔그램이 해주는 것이고, 연구원은 합리적인 실험 방법을 통해 나온 결과를 말이 되게 설명했다. 구글 엔그램은 세계 도서의 약 4% 정도를 DB화 했다고 하는데, 앞으로 DB화가 진행될 수록, 이 연구의 후속판이 나올 것이라 예상된다.

기사에서도 언급한 것처럼, 한세대 30~50년이 흐른 뒤, 이런 연구를 다시 하고, 2000년을 기점으로 인터넷의 발달에 따른 낱말의 생성과 소멸 추이를 보는 것도 흥미 있을 듯 하다. 만약 구글이 50년 뒤에도 살아있다면, 인터넷에서 쓰인 단어의 생성과 소멸 추이도 또한 흥미 있을 듯 하다. 이러한 연구는 트위터를 이용해서 미국의 분위기를 살피거나 [2.5], 정치인에 대한 관심도를 알아내는 [2.7]등 자연어에서 인간의 감성을 추출하는 분야로 확대되고 있다. 한발 더 나아가서, 자연어 처리에 한 획을 긋고 있는 IBM Watson은 2010년 2월 16일, 퀴즈쇼 Jeopardy 에서 인간 참가자를 이기면서 큰 관심을 끌고 있다. 현실적으로 Watson을 이용할 수 있는 분야인 보건 진료 (Healthcare) 에 관한 기사 [2.8, 2.9] 참고.

통계적 분석방법과 관련하여 흥미있는 연구 중 하나는 500년, 그러니까 지금으로 부터 1500년 전에 김씨 성을 가진 사람이 한반도에 10,000명 이었음을 추정하는 논문 [3]이다. 둘다 통계적인 방법을 사용해서 사회현상을 분석하는 논문으로, 이러한 학제간, 다학제 연구는 앞으로 계속 나타나며 우리에게 흥미있는 내용을 많이 전해줄 것 같다.

드디어 구글 엔그램 이야기로 들어가면, 구글 엔그램 서비스는 구글의 컬처로믹스 (Culturomics) 프로젝트를 통해 만들어진 서비스이고, 이를 일반인들에게 공개해서 사용할 수 있도록 했다. 컬처로믹스는 번역하면 '문화체학'이라는 낯선 용어로 번역될 수 있는데 [4, 5], 사이언스지에 발표한 논문 [6]에서 좀 더 자세한 내용을 알 수 있다.

구글의 엔그램 서비스는 n-gram 이라는 정보검색 분야 전문 용어를 서비스 용어로 사용했다는데서 놀랍다. 이는 일반인들이 n-gram 에 대해서 흥미를 가질 수 있고, 몇번 들어보면 자연스레 익숙해지고, 그에 따라 n-gram과 관련있는 다른 IT 기술 용어도 자연스레 익숙해 질 수 있기 때문이다. 

한글의 경우, 실제로 포털 사이트에서 구체적으로 어떻게 색인을 하는지 모르지만, 오픈소스 검색 엔진인 Lucene에 들어있는 CJK (Chinese-Japanese-Korean) Tokenizer 를 살펴보면 알 수 있을 듯 한데, 소스코드의 위치는 lucene-3.5.0/contrib/analyzers/common/src/java/org/apache/lucene/analysis/cjk 이다. analysis 폴더에는 세계 각국 언어에 해당하는 소스코드가 들어있는데, 아직 kr 폴더는 없다. CJK Tokenizer는 bigram으로 문자열을 분리하는데, 예를 들면 다음과 같다.

"Example: "java C1C2C3C4" will be segmented to: "java" "C1C2" "C2C3" "C3C4"."

실제로 한글 문서들을 CJKAnalyzer, CJKTokenizer를 사용하여, 검색한 결과의 정확도가 어느 정도일지 궁금하다.

오픈소스와는 별도로, 국내에선 모란소프트가 Monran-CJK 란 이름으로 언어 분석기 소프트웨어를 판매하고 있다. 이 회사가 자사의 소프트웨어를 공개하고, Lucene에 포함시키려는 노력은 하지 않겠지만, 그랬음 좋겠다. 하하

관련기사 [7]은 2006년에 나왔지만, 아직도 유효한 얘기가 많이 들어있는 기사이고, 기사 말미에 적혀있는 멀티미디어 검색의 내용기반 검색은 국내에선 아직 보편화되지 않은 이야기이다. 업로드한 이미지를 바탕으로 검색하는 건 구글 이미지 검색이 대표적이다.

우리가 영어를 배우는 이유 중 하나는 접할 수 있는 정보의 양이 한글에 비해 비교적 많다는데 있다. 구글이 전세계의 정보를 DB화하면 할수록 우리는 구글에 종속될 수밖에 없는데, 우리나라도 한글에 대한 정보만이라도 멋지게 DB화해서 그 자료를 바탕으로 새로운 정보를 창출하는 연구가 진행되면 좋겠다.

마지막으로 이글루스의 검색에 대해서 얘기하고 마치려고 한다. 이글루스는 온네트에 속해 있다가, 2006년경 SK커뮤니케이션즈에서 운영을 맡게 되었다 [8]. 온네트의 나머지 게임산업은 다음이 2011년 11월경 인수했다.

나는 이글루스를 사용한지 얼마 안되서, 검색에 대한 내용만 얘기하고자 한다. 이글루스에서는 2자 이상부터 검색이 가능하다. 또한 이글루스 메인에서 검색하면 Nate의 검색엔진을 사용하는데, 블로그내에서 검색하는 것은 무엇을 사용하는지 모르겠다. 일단 블로그내에서 검색 결과는 검색어 강조와, 검색어가 들어있는 문장이 표시가 안되고, 무조건 해당 문서의 맨 위 3줄만 보여준다. 이글루스에 문의해보니, 지원이 안되서 양해해 달라고 하니, 양해해 드린다.

[1] [수첩] 지난 200년간, 낱말 신생은 줄고 퇴장은 늘고, 사이언스온, 오철우, 2012.3.7
[2] Alexander M. Petersen, Joel Tenenbaum, Shlomo Havlin, H. Eugene Stanley, Statistical Laws Governing Fluctuations in Word Use from Word Birth to Word Death, Physics and Society, 15 Feb 2012
[2.5] Pulse of the Nation: U.S. Mood Throughout the Day inferred from Twitter
[2.7] TrueStory 시즌1 정치인 - 솔트룩스
[2.8] Watson과 헬스케어 - 자연어 처리 및 시맨틱 검색이 임상적 의사결정 지원을 혁신화할 수 있는 방법 (번역 개판)
[2.9] [2.8]의 원 문서, Watson and healthcare - How natural language processing and semantic search could revolutionize clinical decision support, IBM developerWorks, Michael J. Yuan, 12 Apr 2011
[3] Seung Ki Baek, Petter Minnhagen and Beom Jun Kim, The ten thousand Kims, New Journal of Physics, Volume 13, July 2011
[4] 책 500만권에 담긴 트렌드를 추적하라 - 구글이 공개한 컬처로믹스(culturomics) 프로젝트, ScienceTimes, 임동욱, 2011.2.21
[5] [4]에서 그림이 안나와서, 불펌한 블로그 링크
[6] Jean-Baptiste Michel et al., Quantitative Analysis of Culture Using Millions of Digitized Books, Science, December 16 2010
[7] 스스로 진화하는「인터넷 검색 기술」, 지디넷 코리아, 김효정, 2006.1.9 
[8] [여의도25시] SK컴즈는 욕설을 권장합니다?, 프라임경제, 노현승, 2012.2.29

무협 소설 문화생활

무협은 무(武, 쌈질), 협(俠, 정의로움)을 주제로 하고, 무협 소설은 이런 주제를 바탕으로 이야기를 풀어나가며 주로 선이 악을 물리치는 (勸善懲惡) 이야기로 되어 있다 [1]. 소설의 한자어는 小說, 짧은 이야기라는 뜻이지만, 우리나라에서는 단편, 중편, 장편 모두 소설로 뭉뚱그려 구분하고 있다 [2].

[1] 에서 우리나라 최초의 무협 소설은 중국 무협 소설을 번역하여 소개한 '정협지' 라고 했는데, 이는 번안을 번역으로 잘못 소개한 오류이며, 자세한 내용은 [3] 참고.

내가 처음 무협 소설을 접한 것은, 김용의 영웅문 (사조영웅전, 신조협려, 의천도룡기) 을 통해서다. 그러면서, 무턱대고 당구를 배우듯이, 무턱대고 무협 소설을 아무것이나 닥치는대로 읽게 되었다. 그렇게 흘러흘러 막장 무협소설도 몇 권 읽게 되니, 명작을 읽고 싶은 자연스런 욕구가 생기게 되었다. 그 밑바탕에는 시간이 아깝다는 생각이 깔려 있기도 했다. 

하염없이, 구글에서 '무협 추천' 검색어로 검색하며 새로운 무협 소설을 찾던 중, 좌백의 '천마군림'을 알게 되었고, 좌백에 대해서 궁금해지기 시작했다. 예전에 얼핏 본 이름이었으나, 와룡생, 와룡강, 고룡 등, 룡룡에 거부감이 있던지라 좌백이라는 이름도 그렇게 머리 한구석에 치워져 있었다. 그러나, 더 이상 시덥잖은 무협소설은 읽기 싫고, 한 번 읽어나 보자고 한 결과, 바로 좌백이라는 이름을 검색하게 되었다.

그렇게 찾다보니, 좌백의 무협추천 100선 을 알게 되었고, 요샌 조진행의 '천사지인'을 다시 보고 있다. 좌백의 인터뷰 기사 [4]도 재미있게 읽어보았고, 이젠 읽을 무협이 너무 늘어나서 걱정이 줄었다. 그 유명한 '대도오'는 만화로도 나와있단다 [5].

원래는 블로그를 다시 시작한 이유가, [6] 에 지원할 자신은 없고, 글은 많이 써야 실력이 는다고 생각했기 때문이다. 하하

암튼, 무협추천 100선은 아직은 85위까지 뿐이지만, 84번째 '천사지인'부터 순서대로 보기로 했다. 검색하다 보니 다음 소설에서 구매해서 볼 수 있는데, 권별 목차를 볼 수 없다니! 이럴수가. 무조건 1권의 목차만 볼 수 있는 시스템이라니, 관리자가 시스템에 참 관심이 없구나 하는 생각이 들었다. 결국 결제를 하고 정정당당히 무협 소설을 보려던 마음이, 변기물이 빠지듯 시원하게 사라지고 말았다.

예전에 보고 다시 보는 '천사지인'이라서, 요즘 조진행 작가는 무얼 하나 검색해 봤더니, '절옥관 삼육오' 를 다음에서 연재하고 있다고 한다 [7]. 포털은 이러한 방법으로 생태계를 조성할 수 있을지 좀 더 지켜봐야겠다.

판타지 소설 중 이영도의 '드래곤 라자' 는 숙명여대 국어국문학과 박사과정이 '드래곤 라자'의 설정, 인물, 구조를 바탕으로 판타지 소설을 주로 소비/생산하는 세대를 분석했는데 [8], 국내 논문 검색 사이트인 DBpia에서 '무협 소설' 이란 검색어로 검색해보면, 작품에 대한 논문은 주로 김용이 쓴 중국 무협 소설 분석이 대부분이고, 우리나라 무협 소설에 대한 분석은 찾지 못했다 [9]. 

[1] 위키백과 - 무협 소설
[2] 위키백과 - 소설
[3] 무협의 역사와 계보 - 7
[4] 전설적 무협지 '대도오' 속편으로 돌아온 무협 소설가 좌백 - "무협지란 '무와 협에 대한 중국식 뻥'이다."/육홍타, 2009.9.28
[5] [팬더의 만화길라잡이] 진정한 남자들만의 이야기, 2004.2.12
[6] [알림] 과학 책을 쓰자, 뉴스를 쓰자 -필자를 모십니다, 2012.2.16
[7] [무협] 절옥관 삼육오 이거 재미있네요.
[8] 안지나, ‘판타지’ 소설의 이데올로기 연구 - 『드래곤 라자』를 중심으로, 대중서사연구 제17호, 2007.6, 219-245
[9] DBpia '무협 소설' 검색어 결과

Windows Live Writer Test 컴퓨터

   1: public final class CJKAnalyzer extends StopwordAnalyzerBase {
   2:   //~ Static fields/initializers ---------------------------------------------
   3:  
   4:   /-
   5:    * An array containing some common English words that are not usually
   6:    * useful for searching and some double-byte interpunctions.
   7:    * @deprecated use {@link #getDefaultStopSet()} instead
   8:    *-
   9:   @Deprecated
  10:   public final static String[] STOP_WORDS = {
  11:     "a", "and", "are", "as", "at", "be",
  12:     "but", "by", "for", "if", "in",
  13:     "into", "is", "it", "no", "not",
  14:     "of", "on", "or", "s", "such", "t",
  15:     "that", "the", "their", "then",
  16:     "there", "these", "they", "this",
  17:     "to", "was", "will", "with", "",
  18:     "www"
  19:   };

with Code Snippet.


이글루스에서 소스 코드를 어떻게 집어 넣나 검색해 보니, Windows Live WriterCode Snippet plugin 을 통해서 할 수 있다고 개발자 서승호! 블로그 [1] 에 적혀 있었다. 그대로 따라하니, 되긴 되는데, 지적한 것처럼 <br> 이 붙는다 [2]. 1번과 2번 라인 사이의 빈 줄만 에디터에서 지워주니, 전체 공백이 다 지워지긴 한다. 왜 그런지는 모르겠지만, 몇 번 더 실험을 해봐야 겠다.

<br> 붙는 것 말고, 블럭 주석인 /* */ 가 슬래쉬 때문에 문자가 /- *- 로 바뀌는 현상이 나타난다. 이것도, 담에 함 실험해 봐야 겠다. 물론, 여기서 다음에 실험해 봐야 겠다는 [3] 참조. 원본은 [4].

Windows Live Writer로 작성하면, 기본 설정이 Paragraph로 되어 있어서, <p> 태그로 문장을 묶어 버린다. 이런 거지같은!


[1] 이글루스에 소스코드 syntax Highlight 해서 포스트 하기
[2] <br/> 태그 붙는 현상을 위한 자료
[3] 과학의 전문 용어의 실체
[4] Scientific Jargon

이력서 넣은 곳

예전: (33)
국정원, 한국신용정보, 삼성 SDS, LG전자, LG CNS, LG CTO, 현대중공업, 현대유엔아이, SK 그룹, SK C&C E-PRJ팀, 포스데이타, 휴맥스, 새마을금고, GE HealthCare, 두산, IHI, NHN, 유라코퍼레이션, 동부CNI, 한화 S&C, (주)삼천리, 금융감독원, 티맥스소프트, LG데이콤, LIG System, 팬택계열, 삼성선물, (주)한국인삼공사, 넥슨, 한솔, 모토로라코리아, 효성, 다음

요즘: (27)

가방 끈이 길어지면, 선택지가 좁아진다.
대기업 일단 지원해 보기라도 하자! 고 보니, 영어 말하기 시험 성적이 필요하더군.

예전에 지원한 곳과 요즘 지원한 곳 비교해보니, 별로 겹치는 회사가 없네?

암튼, 면접이라도 보라고, 오라고 해줬음 좋겠다.

어떻게 생각하면, 딱히 다니고 싶은 회사가 마음에 없어서 그런 결과가 나온다고 생각이 든다.

JPEG 과 MPEG 표준 컴퓨터

JPEG 과 MPEG 은 국제 표준이고, 동시에 표준화 단체 이름이기도 하다. 공식적인 이름은 각각, ISO/IEC JTC 1/SC 29/WG 1  와 ISO/IEC JTC 1/SC 29/WG 29 이다.

JPEG 회의는 1년에 3번, MPEG 회의는 4번 개최하며, JPEG 과 MPEG 회의에 다 참여하는 전문가들의 편의를 위해 가끔 같은 장소에서 개최하기도 한다 [1, 2].

우리나라는 지식경제부 기술표준원에서 표준화에 관련된 업무를 지원 및 감독하고 있으며, ISO/IEC 표준화 참여에 필요한 "기술 작업 지침서" 및 "국제표준의 체계 및 초안작성을 위한 지침" 최신 자료를 번역하여 제공하고 있다 [3]. [4] 에서 원버전의 pdf 및 word 파일을 받을 수 있으며, 현재 최신 버전은 2011년 4월자 8번째 (Part 1), 6번째 (Part 2) 수정판이다.

JPEG 과 MPEG 표준화를 진행하며, 일부는 국가 표준 (KS) 으로도 지정을 하고 있다.

우리나라에서 MPEG 회의에 참석하기 위해서는 MPEG 포럼 에 회원가입을 해야하고, MPEG 회의 신청 기간에 MPEG 포럼에서 신청을 해야 한다.

JPEG 과 MPEG 의 보도자료 (Press Release) 는 각각 [5, 6]에서 볼 수 있고, 최근에 2012년 2월 미국 산호세 에서 57번째 JPEG 회의, 99번째 MPEG 회의가 열렸다.

표준화 된지 20년이 넘은 JPEG은 아직까지 널리 쓰이며, 후속작인 JPEG 2000, JPEG XR 의 보편화는 불투명하다 [7]. 만화책 보기 프로그램 중 하나인 꿀뷰3 은 JPEG 2000 과 JPEG XR을 지원하며, 일반 이미지 파일을 JPEG 2000 및 XR 로 변환하는 프로그램인 JPEG 너머 를 공개하고 있다.

ISO/IEC 는 표준화 과정이 실제 구현상 문제가 없는지 검증하는 차원에서 참조 소프트웨어 (Reference Software) 를 구현한다. 보통 표준화 문서를 구매하려면 10만원이 넘는 금액을 지불해야 하는데, 표준의 확산을 위해서 몇몇 표준화 문서 및 참조 소프트웨어는 웹사이트를 통해서 제공하고 있다 [8].

최근 JPEG 및 MPEG 의 쟁점 사항은 최근 보도 자료를 통해서 확인할 수 있고, JPSearch, MPEG-H, a.k.a High Efficiency Media Coding and Dynamic Media Delivery (MPEG Media Transport, High Efficiency Video Coding, 3D Audio) 등이 있다.

표준화에 참석하는 전문가는 회사에 속한 사람도 있고, 학교에 속한 사람도 있다. 표준화의 보급을 장려하기 위해, 논문 및 책 출판을 권장하는데, 이는 교수 입장에서 정년을 보장받기 위한 논문 수를 채우는 데 사용되기도 한다.

최근 Signal Processing: Image Communication (IF: 1.186) 저널에 게재된 JPSearch: An answer to the lack of standardization in mobile image retrieval 는 표준화에 참여한 전문가들이 저자로 참여해 작성한 논문이다. JPSearch 에 대한 소개를 담고 있다.

MPEG 은 MPEG 을 설립한 Leonardo Chiariglione 사이트에서 MPEG 관련 논문 및 책 목록을 확인할 수 있지만, 모든 목록이 있는 것은 아니다 [9].

목록에는 없지만, IEEE Multimedia 에 게재된 Mobile Visual Search: Architectures, Technologies, and the Emerging MPEG Standard 은 최근 MPEG 에서 진행하고 있는 Compact Descriptor for Visual Search (CDVS) 내용을 소개하고, 표준화 경쟁 기술 중 하나로 제안한 기술 내용을 소개하고 있다.

CDVS 는 휴대단말기에서 시각 검색 (이미지를 통한 인식 및 검색) 을 하기 위한 표준이며, MPEG-7, a.k.a Multimedia content description interface 의 Part 13으로 새로 만들어 표준화가 진행 중이다. 현재는 다양한 참여기관에서 경쟁 기술을 바탕으로 검색 시간, 추출시간, 메모리 사용량, 검색 정확도 등의 결과 데이터를 평가하는 중이다.

마지막으로, 어느 전문가의 국제 표준화 회의 참가기를 읽어보면 감이 올 듯하다 [10].

[1] How does JPEG work?
[2] Who we are
[3] ISO/IEC 지침서 (Directives) Part 1/2 번역본
[4] ISO/IEC Directives and ISO Supplement
[5] JPEG 보도 자료
[6] MPEG 보도 자료
[7] Coding Horror - Beyond JPEG
[8] Publicly Available Standards
[9] Papers and books on MPEG
[10] 이현우, 나의 국제표준화회의참가기 - 표준기고, 날카로운 첫 채택의 추억, TTA Journal Vol.136, 124-125, 2011.7.8

1 2