사용자 도구

사이트 도구


2018_08

차이

문서의 선택한 두 판 사이의 차이를 보여줍니다.

차이 보기로 링크

2018_08 [2018/08/09 01:30]
ehmoon
2018_08 [2021/04/13 06:54]
줄 1: 줄 1:
-===== 01일 수요일 ===== 
- 
-[Research] 
- 
-논문세미나 준비 
- 
-목차를 
- 
-   1. Introduction 
-   2. Content Extraction in HTML Document 
-   3. Measures for Evaluating Content Extraction 
-   4. Framework Design 
-      4.1. Test Packages 
-      4.2. Architecture 
-      4.3. Output Format 
-   5. Performance of Extraction Algorithm 
-   6. Related Work 
-   7. Conclusions and Future Work 
- 
-로 잡고, 3. Measures for Evaluating Content Extraction 까지 만듬. 
- 
-여기서 발표 자료의 순서를 잡는데 고민이 생김.  
- 
-사실 이 논문을 읽은 목적이자 가장 중요한 부분이기도 한데, 
- 
-content extraction의 evaluating에서 아무리 precision, recall을 사용한다고 해도 
- 
-scoring의 metric을 뭘로 하고 있는지가 매우 중요함. 
- 
-이 부분을 먼저 설명할지 나중에 설명할지 고민. 
- 
-일단 논문상에 순서로는 나중에 설명하고 있어서 발표자료에도 뒤로 뺌. 
- 
-이 부분은 발표자료 다 만들고 나서 다시 생각해봐야할 문제. 
- 
-\\ 
-\\ 
-\\ 
- 
-===== 02일 목요일 ===== 
- 
-휴가 
- 
-\\ 
-\\ 
-\\ 
- 
-===== 03일 금요일 ===== 
- 
-휴가 
- 
-\\ 
-\\ 
-\\ 
- 
-===== 06일 월요일 ===== 
- 
-[Research] 
- 
-논문세미나 준비 
- 
-4. Framework Design 부분 발표자료 만듬. 
- 
-이 논문에서 디자인한 프레임 워크가 그림같은건 없고 전부 글로 되어있어서 
- 
-직접 설명 자료만드는데 시간이 소요됐음. 
- 
-테스트 데이터를 모으는 과정이나 메타데이터 정의하는 부분, 아키텍쳐에서 
- 
-proxy server 사용하여 병렬처리하는 부분 등 그림으로 그리는데 살짝 복잡했음. 
- 
-내일은 비교 대상으로 사용된 CE 알고리즘 논문들 타고 내려가서 설명자료 만들어야 함. 
- 
-\\ 
-\\ 
-\\ 
- 
-===== 07일 화요일 ===== 
- 
-[Research] 
- 
-논문세미나 준비 
- 
-5. Performance of Extraction Algorithm 부분 survey 함. 
- 
-논문에서 제시하고있는 CE 알고리즘은 Crunch, BTE, DSC, LQF로 총 4개. 
- 
-BTE나 DSC는 워낙 유명한 논문이라 어느정도 파악이 되는데 Crunch는 
- 
-관련 자료가 너무 안나옴. 차라리 이 알고리즘은 주제로 논문이 제대로 하나 
- 
-있으면 좋을텐데 약간 프레임워크같은 개념이라 동작 원리에 대해 명쾌하게 
- 
-설명하는 문서가 없음. 
- 
-그래도 레퍼런스 타고 들어가서 관련 서적 찾음 (50페이지짜리) 
- 
-그 외에 BTE, DSC, LQF 관련해서 동작 과정 정리하고 발표자료 만듬. 
- 
- 
-\\ 
-\\ 
-\\ 
- 
-===== 08일 수요일 ===== 
- 
-[Research] 
- 
-논문세미나 준비 
- 
-5. Performance of Extraction Algorithm 부분 발표자료 수정하고  
- 
-6. Related Work / 7. Conclusions and Future Work 부분 마무리 함 
- 
-이 분야에서 related work가 많지 않다보니까 related 라는 단어를 사용하기 
- 
-민망할 정도로 비교가 명확하지 않음. 
- 
-그래도 논문에서 그렇다고 하니까 발표자료는 만듬. 
- 
-conclusion으로는 논문에서 제시하는 내용과 (자신들의 프레임워크가 매우 성공적이라고 함) 
- 
-내 견해를 정리함. 
- 
-텍스트를 중심으로 비교하기 때문에 이 프레임워크는 이미지가 주요 컨텐츠인 웹페이지를 대상으로는 
- 
-올바른 비교결과를 얻지 못함. 
- 
-또한 구조적인 정보에 대한 가중치가 너무 없다는 것도 문제점 중에 하나임. 
- 
-내가 논문쓸때는 이런 점 잘 기억해놨다가 반영해야겠다는 생각을 함. 
- 
-\\ 
-\\ 
-\\ 
  
2018_08.txt · 마지막으로 수정됨: 2021/04/13 06:54 (바깥 편집)