머신러닝과 텍스트 마이닝으로 특허와 논문에서 보물 찾다
데이터 이야기 2015. 7. 9. 22:25 |방대한 논문과 특허 분석해 인용 관계에 주목해 분석
미래 성장 영역이 될 수 있는 기술을 미리 발견 가능
[그림 1] '기계 학습'과 '데이터 마이닝'에 대한 학술 논문의 인용 관계를 선으로 표현
(인용 관계가 조밀한 213 클러스터를 추출해 색상으로 표현했다. 분량은 많지만 오래된 연구 영역 클러스터를 빨간색으로, 미래의 성장을 전망할 영역 클러스터를 파란색으로 보여주고 있다
인사이트 맵에서 다른 색으로 표시된 것은 「클러스터」인데, 전체 인용 네트워크 중에서도 특히 인용 관계가 조밀한 논문들을 보여준다. 인용 관계가 밀접한 것은 서로 내용이 깊이 관련된 논문이 하나의 그룹, 즉 연구 영역을 형성하고 있는 것이다. 클러스터는 연구 영역에 해당된다. 크고 작은 213의 클러스터가 추출되어 있다. [그림 2]는 그 중에서도 가장 큰 4425 논문을 포함한 클러스터(붉은색)를 나타낸다. 키워드는 클러스터에 포함된 논문에서 특징적인 단어를 보여주고 있다. 이 클러스터는 'association rule'이나 'fuzzy' 등의 키워드로 표시되도록 데이터 마이닝의 기초적인 연구 영역을 지원하고 있다.
[그림 2] 논문 건수는 가장 많지만 다소 오래된 연구 영역 클러스터 만 표시
또한 이 클러스터 논문의 평균 출판년도는 2007년에 인용 네트워크 전체 논문의 평균 출판년도에 비해 다소 오래된 영역인 것을 알 수 있다. 이와 같이 각 클러스터는 논문에 포함된 키워드 또는 출판년도, 국가, 조직, 저자 등의 정보라고 할 수 있다.
[그림 3]은 2183건의 논문을 포함한 5번째로 큰 클러스터(파란색)를 나타낸 것이다. 이 클러스터 논문의 평균 출판년도는 2010년으로 매우 새롭고 최근 성장중인 영역임을 알 수 있다. 키워드는 머신러닝으로 추출했으며, 현재 다양한 응용이 이뤄지고 있다. 'support vector' 등이 나타난 것을 알 수 있다.
[그림 3] 미래의 성장을 전망 할 영역 클러스터
기술개발 투자 조사를 위해 수만 건의 논문을 사람이 조사한다는 것은 사실상 불가능에 가깝다. 하지만 도쿄대의 인사이트 시스템을 이용하면 대상 영역의 전체를 쉽게 조망할 수 있으며, 최근 급성장하는 기술도 파악할 수 있다. 정부 또는 기업에서 기술 로드맵과 이슈 스캐닝(Horizon Scanning)과 같은 미래 예측을 할 때, 일반적으로 전문가의 합의 등 모든 지각에 근거한다.
한편 방대한 논문과 특허 데이터에서 도출된 인사이트 맵이 나타내는 것은 학술·산업기술 지식의 객관적인 파악이 가능하다. (출처: 「니케이 빅데이터」, 2015. 7. 7)
글: 모리 준이치로
정보공학 박사. 도쿄대 대학원 공학계 연구과 기술경영전략학 전공, 강사. 일본 국립 정보학연구소 등을 거쳐 2012년부터 도쿄대에서 연구하고 있다. 전문은 빅데이터 분석, 인공지능, 웹 정보학이다.
'데이터 이야기' 카테고리의 다른 글
빅데이터, 그리고 인간과 컴퓨터의 공생 (0) | 2015.07.01 |
---|---|
데이터 분석은 인포그래픽이 아닌 Data Visualization으로 접근해야 (0) | 2015.06.16 |
빅데이터가 던진 질문: 인과성에서 상관성 시대로의 전환 (0) | 2015.06.04 |
‘빅데이터 아카데미’ [빅데이터 기획 전문가] 수강생 모집 (0) | 2015.05.28 |
ICT 플랫폼 구축사례를 통해 본 탈 구조적 모델링 방법 (1) | 2015.05.14 |