CHOSUN

사용자 프로파일과 유전자 알고리즘을 이용한 검색된 문서 순위결정 방법

Metadata Downloads
Author(s)
金容滸
Issued Date
2004
Abstract
사용자 위주의 문서 순위결정 기법에서는 문서를 대표하는 용어의 가중치를 결정하는 일과 사용자의 요구를 표현하는 수단이 매우 중요하다. 일반적인 문서 순위결정 기법은 사용자가 입력한 질의로 질의 벡터를 구성하고 빈도수와 같은 문서 자체의 정보를 이용하여 문서 벡터를 만든 후, 코사인 유사 공식으로 질의 벡터와 문서 벡터를 비교하여 문서의 순위를 결정한다.
본 논문에서는 상기에서 언급한 문제들을 해결하기 위해서 동일한 분야의 검색된 문서가 갖는 하나의 성향을 중심으로 문서들 자체가 가지고 있는 관계성을 분석하여 용어의 가중치를 결정하였다. 그리고 사용자의 관심분야와 선호도를 적절히 표현하기 위하여 질의가 아닌 사용자 프로파일을 구축하여 이용하였다. 사용자 프로파일은 관심 분야별로 용어열과 선호도 벡터로 구성하고, "사용자접근에 의한 갱신", "사용자 프로파일을 이용한 갱신" 방법을 이용하여 사용자 프로파일을 사용자 위주로 학습시킨다. "사용자 접근에 의한 갱신" 방법은 주제 분야에 대한 지식이 있는 경우에 적용할 수 있는 방법으로서 실험 결과, 사용자 프로파일이 사용자의 선호도를 제대로 표현하기까지의 갱신 회수를 상당히 감소시킬 수 있었다. "사용자 프로파일을 이용한 갱신" 방법은 갱신초기에 수행하는 방법으로서 선호도 값의 차이를 명확히 해주는 결과를 가져온다. 즉, 선호도가 높은 것은 더욱 높게, 낮은 것은 더욱 낮게 만들어 적합과 비적합의 경계를 넓혀주는 방법이다. 실험 평가 결과, 이 갱신 방법은 순위가 결정된 문서들 중 상위 10%의 적합률이 60%이상이 되는 시점인 갱신 회수 3회까지 실시하는 것이 적당함을 알 수 있다. 이때 "사용자 접근에 의한 갱신" 방법을 함께 수행하면 1회의 갱신으로 적합률 60% 이상을 얻을 수 있었다. 그리고 동일한 관심분야의 논문들은 한 가지 성향을 나타내므로 검색된 논문들을 분석하는 과정에서 한 개의 인자로 축소화하여 SVD를 수행하였다.
본 논문에서 제안한 사용자 위주의 문서 순위결정 기법에 대한 성능 검증을 위하여 두 가지 측면, 즉 사용자 선호도 반영 측면과 문서 순위결정의 성능 측면에서 실험을 수행하였다. 사용자 프로파일의 성능평가 실험에서 상위 10% 내의 논문들을 평가했을 때 3회라는 매우 적은 회수의 갱신으로도 평균 적합률 67%를 얻을 수 있었다. 그리고 9회의 갱신으로 적합률 92%를 얻을 수 있었다. 또한 사용자 프로파일의 갱신에 따른 적합률이 최고 98.5% 이상을 보임으로써 본 논문에서 제안한사용자 프로파일 구성·갱신 방법을 이용하면 사용자의 선호도를 충분히 반영 할 수 있음을 알 수 있었다. 사용자 프로파일의 갱신에 음의 사용자 피드백과 양의 사용자 피드백을 모두 사용하는 관련연구와의 비교 평가에서 동일한 분야의 문서들을 대상으로 할 경우에는 음의 피드백 효과가 매우 적음을 알 수 있었다. 본 논문에서 제안한 갱신 방법에 의해 학습된 사용자 프로파일과 본 논문에서 제안한 문서 순위결정 기법을 이용하여 실험을 실시한 결과, 문서의 순위별 적합률이 최고 99.1%의결과를 얻게 되어 본 논문에서 제안한 사용자 위주의 문서 순위결정기법이 사용자에게 적합한 검색결과를 제공할 수 있음을 알 수 있었다.
실험 결과 정보 검색 시스템에서 유전자알고리즘을 사용하면 보다 향상된 정보 검색을 할 수 있다는 것이 증명되었다. 이 논문에서는 다음과 같은 것들을 구현하고 실험하였다.
Alternative Title
Ranking Decision Method of Retrieved Documents Using User Profile and Genetic Algorithm
Alternative Author(s)
Kim, Yong-Ho
Affiliation
朝鮮大學校 大學院
Department
일반대학원 전자계산학과
Advisor
李潤培
Awarded Date
2005-02
Table Of Contents
목차
ABSTRACT = ⅴ
Ⅰ. 서론 = 1
A. 연구 배경 및 목적 = 1
B. 접근 방법 = 4
C. 연구 내용 및 방법 = 5
D. 논문의 구성 = 7
Ⅱ. 관련 연구 = 9
A. 사용자 위주의 정보검색 = 9
B. 유전자 알고리즘 = 11
C. 유전자 알고리즘을 이용한 클러스터링 = 15
D. 사용자 모델링 = 18
E. 문서순위결정 방법 = 20
Ⅲ. 사용자 프로파일과 유전자 알고리즘을 이용한 문서순위결정 = 28
A. 사용자 프로파일의 구조 = 28
B. 사용자 프로파일의 갱신 = 33
1. 사용자 접근에 의한 갱신 = 33
2. 사용자 프로파일을 이용한 갱신 = 34
C. 검색결과 문서의 주요 인자 = 36
1. 용어-문서 행렬의 구성 = 36
2. 용어-문서 행렬의 분해 = 36
D. 검색결과 문서의 유전자 모델 = 40
1. 개체와 개체군 = 40
2. 적합도 함수 = 41
3. 유전자 연산자 = 44
E. 사용자 위주의 문서 순위결정 알고리즘 = 49
Ⅳ. 실험 및 평가 = 53
A. 실험 환경 = 53
1. 실험 데이터 = 53
2. 용어 추출 = 54
B. 사용자 프로파일의 성능 평가 = 57
C. 문서 집합의 교배·돌연변이 실험 = 61
D. 사용자 위주의 문서순위결정 기법의 성능평가 = 69
Ⅴ. 결론 및 향후 연구 = 71
Degree
Doctor
Publisher
朝鮮大學校 大學院
Citation
金容滸. (2004). 사용자 프로파일과 유전자 알고리즘을 이용한 검색된 문서 순위결정 방법.
Type
Dissertation
URI
https://oak.chosun.ac.kr/handle/2020.oak/5663
Appears in Collections:
General Graduate School > 4. Theses(Ph.D)
Authorize & License
  • AuthorizeOpen
  • Embargo2005-10-17
Files in This Item:
  • There are no files associated with this item.

Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.