사용자 도구

사이트 도구


2018_07

차이

문서의 선택한 두 판 사이의 차이를 보여줍니다.

차이 보기로 링크

양쪽 이전 판 이전 판
다음 판
이전 판
2018_07 [2018/07/26 06:50]
ehmoon
2018_07 [2021/04/13 06:54] (현재)
줄 511: 줄 511:
 content extraction evaluating 논문 중 두번째 논문 읽음. content extraction evaluating 논문 중 두번째 논문 읽음.
  
-이 논문은 독일의 구텐베르크 대학교에서 쓴 논문이고 content extraction 분야에서 유명한 논문들이+이 논문은 독일의 마인츠 대학교에서 쓴 논문이고 content extraction 분야에서 유명한 논문들이
  
 reference 했음. 이전 논문에 비해서 좋았던 점은 정답 Set을 정한 기준과 방법에 대해 명확히 제시하고 reference 했음. 이전 논문에 비해서 좋았던 점은 정답 Set을 정한 기준과 방법에 대해 명확히 제시하고
줄 526: 줄 526:
  
 도움이 될 것 같음. 도움이 될 것 같음.
 +
 +\\
 +\\
 +\\
 +
 +===== 27일 금요일 =====
 +
 +[Research]
 +
 +Evaluation Content Extraction on HTML Documents 논문 읽음.
 +
 +어제 대충 읽어봤던대로 이 논문은 content extraction 알고리즘을 평가하는 방법론에 대해 제시하고 있음.
 +
 +인상깊었던 점은 date set을 저장하는 방식이 html 방식이였고, 구체적인 내용을 정의하고있는 meta data를
 +
 +따로 만들었음. 그리고 정답 set을 정의하는 포맷은 text 형식이었음. recall과 precision을 계산하는
 +
 +metric이 text이기 때문에 정답 set 역시 text로 저장해도 무방함.
 +
 +나같은 경우에는 xpath로 저장했었는데 나도 만약 text 비교로 성능을 측정한다면 이와 같이 해도
 +
 +좋겠다는 생각을 함.
 +
 +프레임워크의 아키텍쳐같은 경우는 내가 만들고 있는 방식이랑 거의 유사했음. 다만 이 논문에서는
 +
 +알고리즘별로 연산시간도 뽑아내고 있으므로 단순한 server가 아닌 proxy server를 사용하고 있음.
 +
 +baseline으로 제시한 알고리즘은 Plain, BTE, Crunch, DSC, LQF 로 총 5가지.
 +
 +plain같은 경우는 저자가 proxy 서버에 남아있는 정보를 이용한다는 간단한 아이디어로 구현한것이고
 +
 +나머지 4가지는 기존에 제시된 CE 알고리즘들임.
 +
 +성능은 데이터셋의 종류에 따라 제각각이지만 대부분의 경우에서 DSC가 높게 측정됨.
 +
 +related work로 제시된 논문들은 몇가지 있었으나 딱히 흥미로운 것은 없었음.
 +
 +이 분야에서 성능을 측정하는 방법론에 대해 제시된게 거의 없는 것 같음.
 +
 +사실 이 논문의 저자도 CE 에서의 성능 측정을 IR 에서의 정보 검색률로 생각한 것임.
 +
 +
 +\\
 +\\
 +\\
 +
 +===== 30일 월요일 =====
 +
 +휴가
 +
 +\\
 +\\
 +\\
 +
 +===== 31일 화요일 =====
 +
 +휴가
 +
 +\\
 +\\
 +\\
 +
  
2018_07.1532587830.txt.gz · 마지막으로 수정됨: 2021/04/13 06:54 (바깥 편집)