Database Lab

문서의 이전 판입니다!

01일 수요일

[Research]

논문세미나 준비

목차를

 1. Introduction
 2. Content Extraction in HTML Document
 3. Measures for Evaluating Content Extraction
 4. Framework Design
    4.1. Test Packages
    4.2. Architecture
    4.3. Output Format
 5. Performance of Extraction Algorithm
 6. Related Work
 7. Conclusions and Future Work

로 잡고, 3. Measures for Evaluating Content Extraction 까지 만듬.

여기서 발표 자료의 순서를 잡는데 고민이 생김.

사실 이 논문을 읽은 목적이자 가장 중요한 부분이기도 한데,

content extraction의 evaluating에서 아무리 precision, recall을 사용한다고 해도

scoring의 metric을 뭘로 하고 있는지가 매우 중요함.

이 부분을 먼저 설명할지 나중에 설명할지 고민.

일단 논문상에 순서로는 나중에 설명하고 있어서 발표자료에도 뒤로 뺌.

이 부분은 발표자료 다 만들고 나서 다시 생각해봐야할 문제.

02일 목요일

휴가

03일 금요일

휴가

06일 월요일

[Research]

논문세미나 준비

4. Framework Design 부분 발표자료 만듬.

이 논문에서 디자인한 프레임 워크가 그림같은건 없고 전부 글로 되어있어서

직접 설명 자료만드는데 시간이 소요됐음.

테스트 데이터를 모으는 과정이나 메타데이터 정의하는 부분, 아키텍쳐에서

proxy server 사용하여 병렬처리하는 부분 등 그림으로 그리는데 살짝 복잡했음.

내일은 비교 대상으로 사용된 CE 알고리즘 논문들 타고 내려가서 설명자료 만들어야 함.

07일 화요일

[Research]

논문세미나 준비

5. Performance of Extraction Algorithm 부분 survey 함.

논문에서 제시하고있는 CE 알고리즘은 Crunch, BTE, DSC, LQR로 총 4개.

BTE나 DSC는 워낙 유명한 논문이라 어느정도 파악이 되는데 Crunch는

관련 자료가 너무 안나옴. 차라리 이 알고리즘은 주제로 논문이 제대로 하나

있으면 좋을텐데 약간 프레임워크같은 개념이라 동작 원리에 대해 명쾌하게

설명하는 문서가 없음.

그래도 레퍼런스 타고 들어가서 관련 서적 찾음 (50페이지짜리)

그 외에 BTE, DSC, LQR 관련해서 동작 과정 정리하고 발표자료 만듬.

08일 수요일

[Research]

논문세미나 준비

5. Performance of Extraction Algorithm 부분 발표자료 수정하고

6. Related Work 7. Conclusions and Future Work 부분 마무리 함

이 분야에서 related work가 많지 않다보니까 related 라는 단어를 사용하기

민망할 정도로 비교가 명확하지 않음.

그래도 논문에서 그렇다고 하니까 발표자료는 만듬.

conclusion으로는 논문에서 제시하는 내용과 (자신들의 프레임워크가 매우 성공적이라고 함)

내 견해를 정리함.

텍스트를 중심으로 비교하기 때문에 이 프레임워크는 이미지가 주요 컨텐츠인 웹페이지를 대상으로는

올바른 비교결과를 얻지 못함.

또한 구조적인 정보에 대한 가중치가 너무 없다는 것도 문제점 중에 하나임.

내가 논문쓸때는 이런 점 잘 기억해놨다가 반영해야겠다는 생각을 함.

Database Lab

사용자 도구

사이트 도구

사이드바

목차

01일 수요일

02일 목요일

03일 금요일

06일 월요일

07일 화요일

08일 수요일

문서 도구