방대한 논문과 특허 분석해 인용 관계에 주목해 분석
미래 성장 영역이 될 수 있는 기술을 미리 발견 가능

 

 

일본 도쿄대의 한 연구소에서 2만 3319건의 논문을 분석해 상호 관련성을 나타내는 인용 관계에 착안해 '지식'의 관계성을 시각화하는 연구를 진행하고 있다. 정리된 연구 영역을 컬러 클러스터로 추출하고 키워드와 출판 연도부터 성장성까지 예측할 수 있는 분석 시스템이다.

 

 

기술이 세분화되고 분야를 가로지른 기술 간 융합이 급속히 진행됨에 따라 연구 개발주기가 빨라지고 있다. 이에 따라 기업·기관에서 기술개발 투자를 위해 미래를 전망하는 활동이 더욱 어려워지고 있다. 이런 어려운 환경을 지원하는 연구가 일본 도쿄대학 대학원 공학계 연구과의 사카타·모리 연구소에서 진행되고 있다.

 

'학술·산업 기술 조망(insight) 시스템(이하 인사이트 시스템)'이 그것이다. 도쿄대에서 개발중인 인사이트 시스템은 전 세계의 방대한 학술 논문과 특허 데이터를 분석·추출해 '지식'의 관계성을 시각화함으로써 미래 성장 영역이 될 수 있는 기술을 미리 발견할 수 있도록 돕는 이른바 기술개발 포인트를 찾기 위한 일종의 특허맵 도출과 같은 것이다.

 

논문이나 특허 상호 관련성을 나타내는 인용 관계가 존재한다. 인사이트 시스템에서는 이 인용 관계에 주목하고 방대한 논문과 특허의 대규모 인용 네트워크를 구축해 네트워크 분석을 한다. 또한 텍스트 마이닝 및 데이터 마이닝 등의 기술을 이용해 개별 논문이나 특허에 대한 텍스트 분석을 실시해 대상 기술 영역의 지식의 관계를 자동으로 추출한다.

 

논문의 그룹은 키워드 등으로 특징

[그림 1]은 머신러닝과 데이터 마이닝과 관련한 학술 논문을 바탕으로 작성한 인사이트 맵이다. 맵에서 가는 선은 개별 논문 간의 인용 관계를 표현한 것이다. 논문 데이터는 학술 문헌 데이터베이스 (톰슨 로이터의 'Web of Science')를 'machine learning OR data mining'이라는 쿼리에서 검색해 얻은 3만 4098건의 논문(2015년 6월 현재)을 사용해 그 중 가장 대표적인 인용 네트워크를 구성하는 2만 3319건의 논문을 대상으로 분석했다. 이 논문의 평균 출판 연도는 2008년으로 되어 있다.

 

[그림 1] '기계 학습'과 '데이터 마이닝'에 대한 학술 논문의 인용 관계를 선으로 표현

(인용 관계가 조밀한 213 클러스터를 추출해 색상으로 표현했다. 분량은 많지만 오래된 연구 영역 클러스터를 빨간색으로, 미래의 성장을 전망할 영역 클러스터를 파란색으로 보여주고 있다

 

인사이트 맵에서 다른 색으로 표시된 것은 「클러스터」인데, 전체 인용 네트워크 중에서도 특히 인용 관계가 조밀한 논문들을 보여준다. 인용 관계가 밀접한 것은 서로 내용이 깊이 관련된 논문이 하나의 그룹, 즉 연구 영역을 형성하고 있는 것이다. 클러스터는 연구 영역에 해당된다. 크고 작은 213의 클러스터가 추출되어 있다. [그림 2]는 그 중에서도 가장 큰 4425 논문을 포함한 클러스터(붉은색)를 나타낸다. 키워드는 클러스터에 포함된 논문에서 특징적인 단어를 보여주고 있다. 이 클러스터는 'association rule'이나 'fuzzy' 등의 키워드로 표시되도록 데이터 마이닝의 기초적인 연구 영역을 지원하고 있다.

 

[그림 2] 논문 건수는 가장 많지만 다소 오래된 연구 영역 클러스터 만 표시

 

또한 이 클러스터 논문의 평균 출판년도는 2007년에 인용 네트워크 전체 논문의 평균 출판년도에 비해 다소 오래된 영역인 것을 알 수 있다. 이와 같이 각 클러스터는 논문에 포함된 키워드 또는 출판년도, 국가, 조직, 저자 등의 정보라고 할 수 있다.

 

[그림 3]은 2183건의 논문을 포함한 5번째로 큰 클러스터(파란색)를 나타낸 것이다. 이 클러스터 논문의 평균 출판년도는 2010년으로 매우 새롭고 최근 성장중인 영역임을 알 수 있다. 키워드는 머신러닝으로 추출했으며, 현재 다양한 응용이 이뤄지고 있다. 'support vector' 등이 나타난 것을 알 수 있다.

 

[그림 3] 미래의 성장을 전망 할 영역 클러스터

 

기술개발 투자 조사를 위해 수만 건의 논문을 사람이 조사한다는 것은 사실상 불가능에 가깝다. 하지만 도쿄대의 인사이트 시스템을 이용하면 대상 영역의 전체를 쉽게 조망할 수 있으며, 최근 급성장하는 기술도 파악할 수 있다. 정부 또는 기업에서 기술 로드맵과 이슈 스캐닝(Horizon Scanning)과 같은 미래 예측을 할 때, 일반적으로 전문가의 합의 등 모든 지각에 근거한다. 

 

한편 방대한 논문과 특허 데이터에서 도출된 인사이트 맵이 나타내는 것은 학술·산업기술 지식의 객관적인 파악이 가능하다. (출처: 「니케이 빅데이터」, 2015. 7. 7)

 

글: 모리 준이치로

정보공학 박사. 도쿄대 대학원 공학계 연구과 기술경영전략학 전공, 강사. 일본 국립 정보학연구소 등을 거쳐 2012년부터 도쿄대에서 연구하고 있다. 전문은 빅데이터 분석, 인공지능, 웹 정보학이다.

Posted by 글키우는 농부
: