문서의 선택한 두 판 사이의 차이를 보여줍니다.
2018_08 [2018/08/10 11:12] ehmoon |
2018_08 [2021/04/13 06:54] |
||
---|---|---|---|
줄 1: | 줄 1: | ||
- | ===== 01일 수요일 ===== | ||
- | [Research] | ||
- | |||
- | 논문세미나 준비 | ||
- | |||
- | 목차를 | ||
- | |||
- | 1. Introduction | ||
- | 2. Content Extraction in HTML Document | ||
- | 3. Measures for Evaluating Content Extraction | ||
- | 4. Framework Design | ||
- | 4.1. Test Packages | ||
- | 4.2. Architecture | ||
- | 4.3. Output Format | ||
- | 5. Performance of Extraction Algorithm | ||
- | 6. Related Work | ||
- | 7. Conclusions and Future Work | ||
- | |||
- | 로 잡고, 3. Measures for Evaluating Content Extraction 까지 만듬. | ||
- | |||
- | 여기서 발표 자료의 순서를 잡는데 고민이 생김. | ||
- | |||
- | 사실 이 논문을 읽은 목적이자 가장 중요한 부분이기도 한데, | ||
- | |||
- | content extraction의 evaluating에서 아무리 precision, recall을 사용한다고 해도 | ||
- | |||
- | scoring의 metric을 뭘로 하고 있는지가 매우 중요함. | ||
- | |||
- | 이 부분을 먼저 설명할지 나중에 설명할지 고민. | ||
- | |||
- | 일단 논문상에 순서로는 나중에 설명하고 있어서 발표자료에도 뒤로 뺌. | ||
- | |||
- | 이 부분은 발표자료 다 만들고 나서 다시 생각해봐야할 문제. | ||
- | |||
- | \\ | ||
- | \\ | ||
- | \\ | ||
- | |||
- | ===== 02일 목요일 ===== | ||
- | |||
- | 휴가 | ||
- | |||
- | \\ | ||
- | \\ | ||
- | \\ | ||
- | |||
- | ===== 03일 금요일 ===== | ||
- | |||
- | 휴가 | ||
- | |||
- | \\ | ||
- | \\ | ||
- | \\ | ||
- | |||
- | ===== 06일 월요일 ===== | ||
- | |||
- | [Research] | ||
- | |||
- | 논문세미나 준비 | ||
- | |||
- | 4. Framework Design 부분 발표자료 만듬. | ||
- | |||
- | 이 논문에서 디자인한 프레임 워크가 그림같은건 없고 전부 글로 되어있어서 | ||
- | |||
- | 직접 설명 자료만드는데 시간이 소요됐음. | ||
- | |||
- | 테스트 데이터를 모으는 과정이나 메타데이터 정의하는 부분, 아키텍쳐에서 | ||
- | |||
- | proxy server 사용하여 병렬처리하는 부분 등 그림으로 그리는데 살짝 복잡했음. | ||
- | |||
- | 내일은 비교 대상으로 사용된 CE 알고리즘 논문들 타고 내려가서 설명자료 만들어야 함. | ||
- | |||
- | \\ | ||
- | \\ | ||
- | \\ | ||
- | |||
- | ===== 07일 화요일 ===== | ||
- | |||
- | [Research] | ||
- | |||
- | 논문세미나 준비 | ||
- | |||
- | 5. Performance of Extraction Algorithm 부분 survey 함. | ||
- | |||
- | 논문에서 제시하고있는 CE 알고리즘은 Crunch, BTE, DSC, LQF로 총 4개. | ||
- | |||
- | BTE나 DSC는 워낙 유명한 논문이라 어느정도 파악이 되는데 Crunch는 | ||
- | |||
- | 관련 자료가 너무 안나옴. 차라리 이 알고리즘은 주제로 논문이 제대로 하나 | ||
- | |||
- | 있으면 좋을텐데 약간 프레임워크같은 개념이라 동작 원리에 대해 명쾌하게 | ||
- | |||
- | 설명하는 문서가 없음. | ||
- | |||
- | 그래도 레퍼런스 타고 들어가서 관련 서적 찾음 (50페이지짜리) | ||
- | |||
- | 그 외에 BTE, DSC, LQF 관련해서 동작 과정 정리하고 발표자료 만듬. | ||
- | |||
- | |||
- | \\ | ||
- | \\ | ||
- | \\ | ||
- | |||
- | ===== 08일 수요일 ===== | ||
- | |||
- | [Research] | ||
- | |||
- | 논문세미나 준비 | ||
- | |||
- | 5. Performance of Extraction Algorithm 부분 발표자료 수정하고 | ||
- | |||
- | 6. Related Work / 7. Conclusions and Future Work 부분 마무리 함 | ||
- | |||
- | 이 분야에서 related work가 많지 않다보니까 related 라는 단어를 사용하기 | ||
- | |||
- | 민망할 정도로 비교가 명확하지 않음. | ||
- | |||
- | 그래도 논문에서 그렇다고 하니까 발표자료는 만듬. | ||
- | |||
- | conclusion으로는 논문에서 제시하는 내용과 (자신들의 프레임워크가 매우 성공적이라고 함) | ||
- | |||
- | 내 견해를 정리함. | ||
- | |||
- | 텍스트를 중심으로 비교하기 때문에 이 프레임워크는 이미지가 주요 컨텐츠인 웹페이지를 대상으로는 | ||
- | |||
- | 올바른 비교결과를 얻지 못함. | ||
- | |||
- | 또한 구조적인 정보에 대한 가중치가 너무 없다는 것도 문제점 중에 하나임. | ||
- | |||
- | 내가 논문쓸때는 이런 점 잘 기억해놨다가 반영해야겠다는 생각을 함. | ||
- | |||
- | \\ | ||
- | \\ | ||
- | \\ | ||
- | |||
- | ===== 09일 목요일 ===== | ||
- | |||
- | [Research] | ||
- | |||
- | 논문세미나 준비 | ||
- | |||
- | 논문세미나 발표자료 완성하고 연습 및 최종 정리 | ||
- | |||
- | |||
- | \\ | ||
- | \\ | ||
- | \\ | ||
- | |||
- | ===== 10일 금요일 ===== | ||
- | |||
- | [Study] | ||
- | |||
- | 논문세미나가 끝나고 나니까 다시 개발할 의욕이 매우 떨어짐. | ||
- | |||
- | 일단 이 상태로는 개발 진행 어려울것 같아서 인공지능 공부하던거 조금 진행. | ||
- | |||
- | 지난번 진행한 내용은 텐서플로우 기본 지식과 linear regression의 개념까지 했음. | ||
- | |||
- | 이 부분들도 시간이 오래 지나서 가물가물하다보니 다시 복습하고 | ||
- | |||
- | 다음 강의내용인 multi feature를 사용하기 위한 linear regression 부분 공부함. | ||
- | |||
- | 텐서플로에서 feature는 거의 한 가지일 수가 없기 때문에 multi feature를 다루는 방법을 알아야 함. | ||
- | |||
- | 이 테크닉은 linear regression 뿐만 아니라 어떤 machine learning 또는 deep learning | ||
- | |||
- | 방법을 사용해도 마찬가지임. | ||
- | |||
- | multi feature를 사용하려면 matrix를 사용해야 하고 feature와 output lable의 개수에 따라 | ||
- | |||
- | W값의 shape을 정하는 것이 매우 중요함. | ||
- | |||
- | 강의에서 제공해주는 예제는 퀴즈와 중간고사 점수를 이용하여 기말고사 점수를 예측하는 내용인데 | ||
- | |||
- | 여러개의 feature를 사용하니까 신기하게 예측이 됨. | ||
- | |||
- | 1기 2기때 학부 조교하면서 뽑아낸 학생들 점수로 한번 예측해봐야 겠다는 생각이 듬. | ||
- | |||
- | 추가로 data set을 외부 파일로부터 가져오는 방법에 대한 설명도 들음. | ||
- | |||
- | 파이썬의 numpy 모듈을 사용하는 내용이였고, | ||
- | |||
- | 사용하는 batch 기능까지 설명을 들음. shuple 기능도 있고 나중에 빅데이터 보유했을때 | ||
- | |||
- | 응용하면 좋겠다는 생각을 함. | ||
- | |||
- | 오늘로 linear regression 부분은 학습 완료했고, | ||
- | |||
- | classification 부분임. 이 부분들도 학부 수업때 많이 듣긴 했었지만 구현해본 경험은 없음. | ||
- | |||
- | 이론 지식 뿐만 아니라 텐서플로우로 구현까지 해보면 좋을것 같음. | ||
- | |||
- | 다음주부터는 매일 조금씩이라도 꾸준히 진행해야 함. |