문서의 선택한 두 판 사이의 차이를 보여줍니다.
양쪽 이전 판 이전 판 | 다음 판 양쪽 다음 판 | ||
2018_07 [2018/07/24 06:59] ehmoon |
2018_07 [2018/07/26 06:49] ehmoon |
||
---|---|---|---|
줄 464: | 줄 464: | ||
서베이 진행해야 함. | 서베이 진행해야 함. | ||
+ | |||
+ | \\ | ||
+ | \\ | ||
+ | \\ | ||
+ | |||
+ | ===== 25일 수요일 ===== | ||
+ | |||
+ | [Research] | ||
+ | |||
+ | Web Content Extraction 에서의 Scoring 방법론 관련 논문을 찾아보니 생각보다 많이 나오지는 않음. | ||
+ | |||
+ | google scholar 에서 2개 정도 논문 찾음 | ||
+ | |||
+ | (1) Evaluating Web Content Extraction Algorithm | ||
+ | |||
+ | (2) Evaluation Content Extraction on HTML Documents | ||
+ | |||
+ | 첫 번째 논문은 스로베니아의 류블랴나 대학교에서 쓴 학위논문이고, | ||
+ | |||
+ | extraction algorithm을 평가하는 방법에 대해 서베이한다는 것처럼 말하고 있어서 기대했는데 | ||
+ | |||
+ | 막상 읽어보니 서베이라기보단 자신들의 한 가지 방법론을 제시하고 있고 다양한 알고리즘들에 대해서 | ||
+ | |||
+ | 실험해보는 내용임. 여기서 제안하고있는 평가 방법은 Longest Common Subsequence (LCS) | ||
+ | |||
+ | 즉 HTML code 끼리 text 일치성을 비교하겠다는 의미. python으로 구현했고, | ||
+ | |||
+ | 몇가지 아쉬웠던 점은 아이디어가 그닥 신선하지는 않았고, 정답 Set 만드는 과정이 명확하게 제시돼있지 | ||
+ | |||
+ | 않음. 그리고 여기서 제시하는 것처럼 단순히 text로만 비교를 한다면 생기는 논리적 모순이 발생할 것 같음. | ||
+ | |||
+ | 예를들어 비슷한 구조를 갖고있는 생뚱맞은 2개의 영역이 있다고한다면 그 2개는 코드가 비슷할테고 | ||
+ | |||
+ | 일치성이 높게 판단될 것. 단순한 LCS 비교로는 이러한 문제를 잡지 못할것임. | ||
+ | |||
+ | 영역과 면적을 비교한다던지 DOM Tree 를 비교하는 등 구조적인 특징을 잡아야 함. | ||
+ | |||
+ | \\ | ||
+ | \\ | ||
+ | \\ | ||
+ | |||
+ | ===== 26일 목요일 ===== | ||
+ | |||
+ | [Research] | ||
+ | |||
+ | content extraction evaluating 논문 중 두번째 논문 읽음. | ||
+ | |||
+ | 이 논문은 독일의 구텐베르크 대학교에서 쓴 논문이고 content extraction 분야에서 유명한 논문들이 | ||
+ | |||
+ | reference 했음. 이전 논문에 비해서 좋았던 점은 정답 Set을 정한 기준과 방법에 대해 명확히 제시하고 | ||
+ | |||
+ | 있고, 자신들이 개발한 프레임워크를 설명하는 부분도 있음. | ||
+ | |||
+ | 아직 다 읽어보지는 못했지만 여기서는 어떤 아이디어를 냈나 대충 읽어보니 여기도 역시 | ||
+ | |||
+ | text 비교를 하는것 같음. 이전 논문처럼 LCS를 사용했는지는 아직 모르겠지만 비교 단위를 characters, | ||
+ | |||
+ | sequence of words, bag of words, set of words 등으로 분류하는것을 보아 LCS는 아닌것 같음. | ||
+ | |||
+ | text를 비교한다는 내용 보고 솔직히 기대는 안되지만 뒤에 실험부분이나 output format 같은 부분은 | ||
+ | |||
+ | 도움이 될 것 같음. | ||