Database Lab

문서의 이전 판입니다!

01일 수요일

[Research]

논문세미나 준비

목차를

 1. Introduction
 2. Content Extraction in HTML Document
 3. Measures for Evaluating Content Extraction
 4. Framework Design
    4.1. Test Packages
    4.2. Architecture
    4.3. Output Format
 5. Performance of Extraction Algorithm
 6. Related Work
 7. Conclusions and Future Work

로 잡고, 3. Measures for Evaluating Content Extraction 까지 만듬.

여기서 발표 자료의 순서를 잡는데 고민이 생김.

사실 이 논문을 읽은 목적이자 가장 중요한 부분이기도 한데,

content extraction의 evaluating에서 아무리 precision, recall을 사용한다고 해도

scoring의 metric을 뭘로 하고 있는지가 매우 중요함.

이 부분을 먼저 설명할지 나중에 설명할지 고민.

일단 논문상에 순서로는 나중에 설명하고 있어서 발표자료에도 뒤로 뺌.

이 부분은 발표자료 다 만들고 나서 다시 생각해봐야할 문제.

02일 목요일

휴가

03일 금요일

휴가

06일 월요일

[Research]

논문세미나 준비

4. Framework Design 부분 발표자료 만듬.

이 논문에서 디자인한 프레임 워크가 그림같은건 없고 전부 글로 되어있어서

직접 설명 자료만드는데 시간이 소요됐음.

테스트 데이터를 모으는 과정이나 메타데이터 정의하는 부분, 아키텍쳐에서

proxy server 사용하여 병렬처리하는 부분 등 그림으로 그리는데 살짝 복잡했음.

내일은 비교 대상으로 사용된 CE 알고리즘 논문들 타고 내려가서 설명자료 만들어야 함.

07일 화요일

[Research]

논문세미나 준비

5. Performance of Extraction Algorithm 부분 survey 함.

논문에서 제시하고있는 CE 알고리즘은 Crunch, BTE, DSC, LQF로 총 4개.

BTE나 DSC는 워낙 유명한 논문이라 어느정도 파악이 되는데 Crunch는

관련 자료가 너무 안나옴. 차라리 이 알고리즘은 주제로 논문이 제대로 하나

있으면 좋을텐데 약간 프레임워크같은 개념이라 동작 원리에 대해 명쾌하게

설명하는 문서가 없음.

그래도 레퍼런스 타고 들어가서 관련 서적 찾음 (50페이지짜리)

그 외에 BTE, DSC, LQF 관련해서 동작 과정 정리하고 발표자료 만듬.

08일 수요일

[Research]

논문세미나 준비

5. Performance of Extraction Algorithm 부분 발표자료 수정하고

6. Related Work / 7. Conclusions and Future Work 부분 마무리 함

이 분야에서 related work가 많지 않다보니까 related 라는 단어를 사용하기

민망할 정도로 비교가 명확하지 않음.

그래도 논문에서 그렇다고 하니까 발표자료는 만듬.

conclusion으로는 논문에서 제시하는 내용과 (자신들의 프레임워크가 매우 성공적이라고 함)

내 견해를 정리함.

텍스트를 중심으로 비교하기 때문에 이 프레임워크는 이미지가 주요 컨텐츠인 웹페이지를 대상으로는

올바른 비교결과를 얻지 못함.

또한 구조적인 정보에 대한 가중치가 너무 없다는 것도 문제점 중에 하나임.

내가 논문쓸때는 이런 점 잘 기억해놨다가 반영해야겠다는 생각을 함.

09일 목요일

[Research]

논문세미나 준비

논문세미나 발표자료 완성하고 연습 및 최종 정리

10일 금요일

[Study]

논문세미나가 끝나고 나니까 다시 개발할 의욕이 매우 떨어짐.

일단 이 상태로는 개발 진행 어려울것 같아서 인공지능 공부하던거 조금 진행.

지난번 진행한 내용은 텐서플로우 기본 지식과 linear regression의 개념까지 했음.

이 부분들도 시간이 오래 지나서 가물가물하다보니 다시 복습하고

다음 강의내용인 multi feature를 사용하기 위한 linear regression 부분 공부함.

텐서플로에서 feature는 거의 한 가지일 수가 없기 때문에 multi feature를 다루는 방법을 알아야 함.

이 테크닉은 linear regression 뿐만 아니라 어떤 machine learning 또는 deep learning

방법을 사용해도 마찬가지임.

multi feature를 사용하려면 matrix를 사용해야 하고 feature와 output lable의 개수에 따라

W값의 shape을 정하는 것이 매우 중요함.

강의에서 제공해주는 예제는 퀴즈와 중간고사 점수를 이용하여 기말고사 점수를 예측하는 내용인데

여러개의 feature를 사용하니까 신기하게 예측이 됨.

1기 2기때 학부 조교하면서 뽑아낸 학생들 점수로 한번 예측해봐야 겠다는 생각이 듬.

추가로 data set을 외부 파일로부터 가져오는 방법에 대한 설명도 들음.

파이썬의 numpy 모듈을 사용하는 내용이였고, 파일이 매우 커서 메모리에 올리지 못할 경우

사용하는 batch 기능까지 설명을 들음. shuple 기능도 있고 나중에 빅데이터 보유했을때

응용하면 좋겠다는 생각을 함.

오늘로 linear regression 부분은 학습 완료했고, 다음 강의 내용은 logistic regression 및

classification 부분임. 이 부분들도 학부 수업때 많이 듣긴 했었지만 구현해본 경험은 없음.

이론 지식 뿐만 아니라 텐서플로우로 구현까지 해보면 좋을것 같음.

다음주부터는 매일 조금씩이라도 꾸준히 진행해야 함.

Database Lab

사용자 도구

사이트 도구

사이드바

목차

01일 수요일

02일 목요일

03일 금요일

06일 월요일

07일 화요일

08일 수요일

09일 목요일

10일 금요일

문서 도구