본문 바로가기 주메뉴 바로가기

통계논문월드

통계논문월드

논문/통계 정보

논문/통계 정보

논문작성시 검색엔진을 이용한 분석방법

admin 2024-01-25 01:01:45 조회수 188

안녕하세요. 통계논문월드 입니다.




사진 설명을 입력하세요.

< 검색엔진을 이용한 분석방법 >

인터넷이 급속히 증가하면서 인터넷에는 수많은 데이터들이 넘쳐나고 있으며, 1999년에는 약 3천만개의 웹사이트가 있는 것으로 조사되었으며, 2007년도에는 약 1억개, 현재에도 기하급수적으로 증가하고 있다. 이렇게 기하급수적으로 증가한 인터넷의 실시간 데이터나 중요한 정보를 찾기 위하여 우리는 많은 시간과 노력을 필요로 하게 되었다. 이로 인해, 인터넷 데이터를 활용하여 우리가 필요로 하는 정보를 어떻게 도출할 것인가에 대한 많은 연구가 진행되고 있으며, 텍스트마이닝, 검색엔진, 로봇 등의 다양 한 기법들이 도입되고 있으나, 아직까지 많은 연구가 진행되고 있는 실정이다. 이러한 인터넷을 이용한 방법은 여러 가지 중요한 시사점을 나타내고 있다.

- 인터넷에서는 가공되지 않는 무한한 정보가 존재하며, 1차적으로 어떻게 필요한 정보를 얻을 수 있는가에 대한 근본적인 방법 모색(검색엔진을 활용한 방법, 인터넷에 존재하는 데이터를 중심으로 텍스트마이닝을 이용하는 방법 등)

- 인터넷의 정보를 활용하여 직접적인 정보가 아니더라도 간접적인 정보로써 활용이 가능하다는 의미(선거 출구조사 대신 같은 기간의 인터넷에 검색결과에 의한 출구조사, 관련 검색단어의 검색빈도수를 이용한 독감발생 추이 방법 등)

- 인터넷을 이용하여 트랜드 및 추세분석이 가능하다는 점(현재 소셜 네트워크(Social Network), 블로그 등을 이용한 개인과 단체의 성향과 트랜드 등을 예측하는 방법 등)

네트워크분야에서도 IT기술과 인터넷을 활용한 새로운 방법들이 도입되기 시작하였으며, 일부 연구에서는 인터넷의 방대한 데이터를 활용하여 데이터마이닝, 텍스터마이닝, 검색엔진을 이용한 방법 등이 연구되고 있다.

예를 들면, 2008년 구글에서는 미국의 109대 상원위원의 선거에서 텍스트마이닝과 네트워크 분석을 활용한 미래예측 방법 연구 기존의 출구조사를 한 결과와 구글의 검색결과로 분석한 결과가 유사한 것으로 알려지므로 인터넷의 유용성에 대한 연구가 활발하게 진행되고 있다.

최근 연구에서는 미국 시민들의 검색단어 빈도수를 이용하여 지역별 독감발생 추이를 분석한 결과, 미국 CDC(The U.S. Centers for Disease Control and Prevention)에서 발표한 실제 독감발생 추이와 유사하고 이런 분석방법을 통해 CDC 발표시기보다 약 2주정도 빠른 결과를 도출할 수 있다.

인터넷의 다양한 정보(웹페이지, 논문검색, 특허검색, 블로그 등)를 통해 네트워크의 연결고리를 분석하여 가상 네트워크를 도출하고 도출되어진 네트워크를 통해 분석하는 모델을 제시하였다. 특히, 노드간의 상호 연관관계에 대한 가중치를 인터넷의 구글 검색결과값으로 대치하고 이를 네트워크로 분석하였다. 여기에 사용되어진 구글 검색엔진은 페이지랭크(Pagerank)라는 알고리즘을 통해 구현되었으며, 웹페이지에 연결된 하이퍼링크를 수에 따른 가중치를 분석하여 검색결과값으로 표현한 일종의 네트워크 알고리즘으로 만들어진 검색엔진이다.

이렇게 구현된 검색엔진은 기존의 검색엔진과 달리 임의로 검색결과를 조작하기 어려워 검색결과에 대한 신뢰성이 높은 것이 특징이다.

최근 구글에서는 Open API(Application Programming Interface)를 제공하여 논문검색사이트, 특허검색사이트, 구글사전 등을 제공하여 다양한 목적을 위해 사용하게끔 공개되어 있다. 일반적으로 API(Application Programming Interface)는 운영체계나 언어가 어떤 기능을 제어할 수 있도록 제공되는 인터페이스였으나, 웹 2.0에서는 웹의 특정한 서비스를 이용하도록 제공되는 인터페이스로 개념이 확장되고 있는 개념이다.

 


상단으로
무료 문자상담
논문컨설팅 박사논문, 석사논문, 학술지,
통계분석 및 설문조사
TEL.02-566-5060
HP.010-5162-3053
개인정보취급방침