차이

문서의 선택한 두 판 사이의 차이를 보여줍니다.

--- 2018_07 [2018/07/24 06:40]
ehmoon
+++ 2018_07 [2018/07/26 06:49]
ehmoon
@@ 줄 420: / 줄 420: @@
 [Study]
+개발 잠시 접어두고, 인공지능 (Deep Learning) 공부 방법에 대해 알아 봄.
+일단, 인공지능 공부를 하는 목적을 명확히 하자면 내 연구의 비교 알고리즘으로
+구현할 필요가 있을 수 있고, 추후에 있을 CRC 과제에서 딥러닝을 사용한 개발을
+진행 할 수 도 있기 때문. 그때 가서 공부하기에는 너무 늦기 때문에 지금부터 조금씩
+진행해 놓을 계획. 공부할 material은 많이 있었지만 나는 실무 위주의 개념이 필요하므로
+홍콩과기대 김성훈 교수님이 youtube와 github에 공유해 놓으신 강의로 결정.
+이 강의에는 tensorflow를 실제로 사용하는 예제가 있어서 좋음.
+오늘은 기본적인 개론과 tensorflow configuration 정도 진행하고,
+machine learning 의 맨 처음으로 나오는 linear regression 은 수업시간에 하도 많이 했으므로
+빠르게 진도 뺌. tensorflow 사용해보면서 호기심이 많이 생겼고, 이걸로 뭔가 만들어보고 싶다는
+욕구가 생겼고 익숙하지는 않았지만 오랜만에 좌뇌를 많이 사용한 것 같아서 쫄깃한 재미가 있었음.
+\\
+\\
+\\
+===== 24일 화요일 =====
+[Research]
+하루종일 논문세미나와 CRC 그룹1 미팅 및 회식하느라 개인시간 거의 없었음. 개발이나 공부는 거의
+못하고 조만간 있을 논문세미나 준비를 조금 진행. 일단 논문 선정을 어떻게할까 고민했는데, 처음엔
+비교 알고리즘으로 제시할 Automatic Web Content Extraction by Combination of Learning and Grouping
+논문을 발표할까 하다가,, Content extraction에서 scoring 방법론과 관련한 논문을 survey 해서 발표하는
+것이 좋을것 같다고 판단. 이유는 어차피 내 연구를 진행하려면 조사해야하는 부분이기도 하고, (무엇보다
+이 논문을 미리 발표하면 교수님의 기대치가 너무 높아질 것 같기때문에.) 내일은 괜찮은 논문 찾아서
+서베이 진행해야 함.
+\\
+\\
+\\
+===== 25일 수요일 =====
+[Research]
+Web Content Extraction 에서의 Scoring 방법론 관련 논문을 찾아보니 생각보다 많이 나오지는 않음.
+google scholar 에서 2개 정도 논문 찾음
+(1) Evaluating Web Content Extraction Algorithm
+(2) Evaluation Content Extraction on HTML Documents
+첫 번째 논문은 스로베니아의 류블랴나 대학교에서 쓴 학위논문이고, 처음 abstrict에서는 web content
+extraction algorithm을 평가하는 방법에 대해 서베이한다는 것처럼 말하고 있어서 기대했는데
+막상 읽어보니 서베이라기보단 자신들의 한 가지 방법론을 제시하고 있고 다양한 알고리즘들에 대해서
+실험해보는 내용임. 여기서 제안하고있는 평가 방법은 Longest Common Subsequence (LCS)
+즉 HTML code 끼리 text 일치성을 비교하겠다는 의미. python으로 구현했고, 평가는 잘 된다고 나와있음.
+몇가지 아쉬웠던 점은 아이디어가 그닥 신선하지는 않았고, 정답 Set 만드는 과정이 명확하게 제시돼있지
+않음. 그리고 여기서 제시하는 것처럼 단순히 text로만 비교를 한다면 생기는 논리적 모순이 발생할 것 같음.
+예를들어 비슷한 구조를 갖고있는 생뚱맞은 2개의 영역이 있다고한다면 그 2개는 코드가 비슷할테고
+일치성이 높게 판단될 것. 단순한 LCS 비교로는 이러한 문제를 잡지 못할것임.
+영역과 면적을 비교한다던지 DOM Tree 를 비교하는 등 구조적인 특징을 잡아야 함.
+\\
+\\
+\\
+===== 26일 목요일 =====
+[Research]
+content extraction evaluating 논문 중 두번째 논문 읽음.
+이 논문은 독일의 구텐베르크 대학교에서 쓴 논문이고 content extraction 분야에서 유명한 논문들이
+reference 했음. 이전 논문에 비해서 좋았던 점은 정답 Set을 정한 기준과 방법에 대해 명확히 제시하고
+있고, 자신들이 개발한 프레임워크를 설명하는 부분도 있음.
+아직 다 읽어보지는 못했지만 여기서는 어떤 아이디어를 냈나 대충 읽어보니 여기도 역시
+text 비교를 하는것 같음. 이전 논문처럼 LCS를 사용했는지는 아직 모르겠지만 비교 단위를 characters,
+sequence of words, bag of words, set of words 등으로 분류하는것을 보아 LCS는 아닌것 같음.
+text를 비교한다는 내용 보고 솔직히 기대는 안되지만 뒤에 실험부분이나 output format 같은 부분은
+도움이 될 것 같음.

Database Lab

사용자 도구

사이트 도구

차이

문서 도구