Semantic Term 가중치를 이용한 웹 문서 장르 분류
- 고병규
- 2011
- 웹 검색 분야에 있어서 웹 문서의 지속적인 증가로 인해 기존 키워드 기반 검색 방법으로는 사용자가 원하는 정확한 결과 제시가 어려워지고 있다. 이러한 문제점을 극복하기 위해 웹 문서 내용의 의미적인 분석과 형식이나 스타일 등을 고려한 웹 장르 분류에 대한 연구가 활발히 진행되고 있다. 이는 웹 문서 내 존재하는 텍스트 정보와 URL 정보, HTML 태그 정보 등을 이용하여 적합한 장르를 분류하는 기술이다. 본 논문에서는 웹 장르 분류에 필요한 특징 요소를 정의하고, 웹 문서 내 의미적인 내용분석을 통한 웹 장르 자동 분류방법을 제시하여, 정보 검색 성능 향상에 크게 기여할 수 있을 것으로 사료된다.
장르 분류에 대한 연구는 꾸준히 지속되고 있지만, 최근 인터넷 사용자의 증가로 인해 정확한 검색결과가 도출되기를 바라는 사람이 증가하였다. 하지만 기존의 텍스트 기반, Page Rank 등의 방법만으로는 더 나은 검색결과를 도출하기에는 한계가 존재한다. 또한 대부분의 장르 분류에 쓰여진 문서들 중 웹 문서의 특성을 고려한 사례가 있으나 이는 소량의 특성들만 선택하여 연구가 진행되었다[3, 13, 20, 22, 23]. 기존의 장르 분류에서 사용되었던 문서집단은 논문, 뉴스, 사전등의 자료로서 카테고리 분류에 더 가까운 내용의 연구가 활발했다 할 수 있다. 하지만 현재의 웹 문서는 소셜네트워크 활용이 증대되고 이를 통해 블로그, 인터넷 쇼핑몰과 같은 개인화와 단체화가 조화를 이루며 발전해 가고 있다. 이처럼 다양한 형식의 웹 문서가 나타남으로써 검색 결과의 정확률이 더욱 낮아지고 있는 실정이기 때문에 보다 나은 검색결과를 위해 현재의 웹 문서 내 활용할 가치가 있는 특징들을 추출하여 장르 분류에 관한 연구를 진행해야 할 것이다.
사용자가 검색 사이트에 접속하여 검색을 하면 대부분의 검색결과는 문서의 타이틀에 초점을 맞추어 검색결과가 제공되며, 이와 같은 방식을 주제(Title) 기반 검색 결과라 표현할 수 있다. 하지만 장르는 이러한 주제뿐만 아닌, 해당 페이지에 사용된 마크업 언어인 HTML태그와 문서 내 존재하는 텍스트를 분석하여 키워드 추출, 해당 웹페이지의 위치를 나타내는 URL정보까지 파악하여 페이지를 분석하고 이를 분류하기 때문에 정확률은 기존의 일반 텍스트 기반의 웹 검색 보다는 향상된 결과를 나을 수 있다. 예를 들어, 특정 분야에서 사용되는 단어를 입력하였을 경우, 기존의 검색 방법은 전체의 페이지를 분석하여 특정 단어가 본문에 입력되어 있을 때, 주제에 포함되어 있을 때 해당 웹 페이지의 클릭 수에 따라 정렬하여 검색 결과로 보여준다. 하지만 장르 분류를 통해 검색을 한다면 그 특정 단어가 자주 쓰이고 있는 분야 내에서 검색하여 추출된 웹페이지를 장르 분류 자질에 따라 선별한 후 분류 알고리즘을 통해 장르가 결정되고 이를 검색 결과로 나타낸다.
따라서 본 논문에서 보이고자 하는 Semantic Term 특징 요소 및 URL, HTML 태그, 웹 문서 구조적인 특징 요소 추출을 통해 기존의 연구와 비교분석한다. 특히 단순한 빈도수에 기반한 Keyword 특징 요소 추출 방법에서 벗어나 Semantic Term 특징 요소에 가중치를 추가하여 보다 의미적인 방법을 통한 연구 결과를 도출한다.|With a continuous increase in web documents in the field of web search, it has become more and more difficult to depend on the existing methods of key word-based search to get the results of search that can meet users’ needs. In attempts to overcome these problems, a lot of research has been actively conducted by means of a semantic analysis of web-document content and the consideration of the forms and styles. This is a technique that uses text information, URL information, HTML tag information, and others, within those web documents, to classify appropriate genres. This dissertation defines the characteristics required to classify genres, provides the method of automatically classifying genres through the semantic analysis of content within the web documents in question, which it is thought can make an enormous contribution to the improvement in the performance for information search.
If a user visits a search website to search for information, what he or she can see is the result of search that focuses on the titles of documents, which can be referred to as a title-based search result. However, the genre-based search extracts key words by analyzing not only the titles but also HTML tags, a mark-up language, used in the web page in question, and texts within the document. Furthermore, it comprehends URL information to analyze and classify the web page, which can produce a more improved result than existing text-based web search can. For instance, if a key word used in a particular field is input, the existing methods analyze all the web pages in which it finds a particular word and judges whether the title is included there. Only in this case can they arrange the titles according to the number of clicks given to the web page and then exhibit the search result. By contrast, the genre-base search depends on searching within the field in which a particular word is frequently used, to classify and single out the extracted web pages by genre and then decide on the genre, finally showing the search result.
Accordingly, this dissertation conducts a comparative analysis of existing studies through extracting structural characteristics such as semantic term, URL, HTML tag, web documents. In particular, keeping away from a method of extracting keyword characteristics based on simple frequency, it adds weight to characteristics of semantic terms to derive a research result by the help of a more meaningful method. Since web documents include a host of characteristics, unlike other ordinary documents, it is said that these characteristics enable the former to be more appropriate for automatic genre classification than the latter do. This dissertation uses URL and HTML tags to tokenize the text content by words and add such tags as nouns, proper nouns and so forth, finally extracting the tag in question. By so doing, it judges what a keyword is. It sets as the semantic term weight the result derived from measuring the weight of the keyword, and uses it as one of the characteristics. For this experiment, this dissertation unifies 7-genre corpora and 20-genre corpora to single out 8 genres in total. And extracting features, it uses a learning machine to classify genres in an automatic way. In order to evaluate the genres classified through this process, it uses the classification algorithms of SVM and Naïve Bayesian to measure the result of web document classifications. And it compares between them according to whether or not to give semantic term weight. As a result, it finds out that this classification of web documents by genre by use of SVM can improve the performance of search by about 10 percent; that by use of Naïve Bayesian can improve by about 4.3 percent. And this dissertation discovers that the classification algorithm of SVM is more excellent in performance than that of Naïve Bayesian is. This finding means, it is thought, that using this method in consideration of the characteristics within the web pages, instead of choosing the existing text-based search, would produce the better results than this dissertation did.
- Web Documents Genre Classificaion using Semantic Term Weight
- Ko, Byeong Kyu
- 조선대학교 일반대학원
- 일반대학원 컴퓨터공학과
- 김판구
- 2012-02
Ⅰ. 서론 1
A. 연구 배경 및 목적 1
B. 논문의 구성 2
Ⅱ. 관련 연구 3
A. 웹 장르 분류의 정의 3
B. 웹 문서 분류와 웹 장르 분류의 차이점 4
1. 웹 문서 분류 4
2. 웹 장르 분류 4
C. 웹 문서 분류를 위한 분류 학습 알고리즘 6
1. SVM 분류 알고리즘 6
2. Naïve Bayesian 분류 알고리즘 8
3. 결정트리(Decision Tree) 분류 알고리즘 9
4. kNN(k-Nearest Neighbors) 분류 알고리즘 10
Ⅲ. 웹 문서 장르 분류를 위한 특징 요소 모델링 12
A. 웹 장르 분류 13
B. 웹 문서 장르 분류를 위한 특징 요소 정의 및 추출 14
1. Semantic Term 특징 요소 14
a. Semantic Term 특징 요소 정의 14
b. Semantic Term 특징 요소 추출 16
(1) 문장 토큰화(Tokenizing) 16
(2) 품사 태깅(POS Tagging) 16
(3) Semantic Term 추출 18
2. URL 특징 요소 20
a. URL 특징 요소 정의 20
b. URL 특징 요소 추출 21
3. HTML 태그 특징 요소 23
a. HTML 특징 요소 정의 23
b. HTML 특징 요소 추출 23
4. Structural 특징 요소 25
a. Structural 특징 요소 정의 25
b. Structural 특징 요소 추출 25
Ⅳ. SVM을 이용한 웹 장르 학습 및 분류 27
A. 분류 알고리즘별 비교 27
B. Semantic Term 가중치 측정 방법 32
C. SVM과 Naïve Bayesian 분류 알고리즘 적용을 위한 모델링 33
Ⅴ. 실험 및 평가 34
A. 실험 환경 및 데이터 셋 34
1. 실험 환경 34
2. 데이터 셋 35
B. 분류 결과의 장르별 분석 36
1. SVM을 이용한 분류 결과 37
2. Naïve Bayesian을 이용한 분류 결과 41
Ⅵ. 결론 44
참고문헌 45
- Master
- 조선대학교 일반대학원
- 고병규. (2011). Semantic Term 가중치를 이용한 웹 문서 장르 분류.
- Dissertation
