문서의 선택한 두 판 사이의 차이를 보여줍니다.
양쪽 이전 판 이전 판 다음 판 | 이전 판 다음 판 양쪽 다음 판 | ||
2018_07 [2018/07/26 06:50] ehmoon |
2018_07 [2018/07/27 10:59] ehmoon |
||
---|---|---|---|
줄 511: | 줄 511: | ||
content extraction evaluating 논문 중 두번째 논문 읽음. | content extraction evaluating 논문 중 두번째 논문 읽음. | ||
- | 이 논문은 독일의 | + | 이 논문은 독일의 |
reference 했음. 이전 논문에 비해서 좋았던 점은 정답 Set을 정한 기준과 방법에 대해 명확히 제시하고 | reference 했음. 이전 논문에 비해서 좋았던 점은 정답 Set을 정한 기준과 방법에 대해 명확히 제시하고 | ||
줄 527: | 줄 527: | ||
도움이 될 것 같음. | 도움이 될 것 같음. | ||
+ | \\ | ||
+ | \\ | ||
+ | \\ | ||
+ | |||
+ | ===== 27일 금요일 ===== | ||
+ | |||
+ | [Research] | ||
+ | |||
+ | Evaluation Content Extraction on HTML Documents 논문 읽음. | ||
+ | |||
+ | 어제 대충 읽어봤던대로 이 논문은 content extraction 알고리즘을 평가하는 방법론에 대해 제시하고 있음. | ||
+ | |||
+ | 인상깊었던 점은 date set을 저장하는 방식이 html 방식이였고, | ||
+ | |||
+ | 따로 만들었음. 그리고 정답 set을 정의하는 포맷은 text 형식이었음. recall과 precision을 계산하는 | ||
+ | |||
+ | metric이 text이기 때문에 정답 set 역시 text로 저장해도 무방함. | ||
+ | |||
+ | 나같은 경우에는 xpath로 저장했었는데 나도 만약 text 비교로 성능을 측정한다면 이와 같이 해도 | ||
+ | |||
+ | 좋겠다는 생각을 함. | ||
+ | |||
+ | 프레임워크의 아키텍쳐같은 경우는 내가 만들고 있는 방식이랑 거의 유사했음. 다만 이 논문에서는 | ||
+ | |||
+ | 알고리즘별로 연산시간도 뽑아내고 있으므로 단순한 server가 아닌 proxy server를 사용하고 있음. | ||
+ | |||
+ | baseline으로 제시한 알고리즘은 Plain, BTE, Crunch, DSC, LQF 로 총 5가지. | ||
+ | |||
+ | plain같은 경우는 저자가 proxy 서버에 남아있는 정보를 이용한다는 간단한 아이디어로 구현한것이고 | ||
+ | |||
+ | 나머지 4가지는 기존에 제시된 CE 알고리즘들임. | ||
+ | |||
+ | 성능은 데이터셋의 종류에 따라 제각각이지만 대부분의 경우에서 DSC가 높게 측정됨. | ||
+ | |||
+ | related work로 제시된 논문들은 몇가지 있었으나 딱히 흥미로운 것은 없었음. | ||
+ | |||
+ | 이 분야에서 성능을 측정하는 방법론에 대해 제시된게 거의 없는 것 같음. | ||
+ | |||
+ | 사실 이 논문의 저자도 CE 에서의 성능 측정을 IR 에서의 정보 검색률로 생각한 것임. |