사용자 도구

사이트 도구


2018_08

문서의 이전 판입니다!


01일 수요일

[Research]

논문세미나 준비

목차를

 1. Introduction
 2. Content Extraction in HTML Document
 3. Measures for Evaluating Content Extraction
 4. Framework Design
    4.1. Test Packages
    4.2. Architecture
    4.3. Output Format
 5. Performance of Extraction Algorithm
 6. Related Work
 7. Conclusions and Future Work

로 잡고, 3. Measures for Evaluating Content Extraction 까지 만듬.

여기서 발표 자료의 순서를 잡는데 고민이 생김.

사실 이 논문을 읽은 목적이자 가장 중요한 부분이기도 한데,

content extraction의 evaluating에서 아무리 precision, recall을 사용한다고 해도

scoring의 metric을 뭘로 하고 있는지가 매우 중요함.

이 부분을 먼저 설명할지 나중에 설명할지 고민.

일단 논문상에 순서로는 나중에 설명하고 있어서 발표자료에도 뒤로 뺌.

이 부분은 발표자료 다 만들고 나서 다시 생각해봐야할 문제.




02일 목요일

휴가




03일 금요일

휴가




06일 월요일

[Research]

논문세미나 준비

4. Framework Design 부분 발표자료 만듬.

이 논문에서 디자인한 프레임 워크가 그림같은건 없고 전부 글로 되어있어서

직접 설명 자료만드는데 시간이 소요됐음.

테스트 데이터를 모으는 과정이나 메타데이터 정의하는 부분, 아키텍쳐에서

proxy server 사용하여 병렬처리하는 부분 등 그림으로 그리는데 살짝 복잡했음.

내일은 비교 대상으로 사용된 CE 알고리즘 논문들 타고 내려가서 설명자료 만들어야 함.

2018_08.1533558212.txt.gz · 마지막으로 수정됨: 2021/04/13 06:54 (바깥 편집)