사용자 도구

사이트 도구


2018_08

차이

문서의 선택한 두 판 사이의 차이를 보여줍니다.

차이 보기로 링크

양쪽 이전 판 이전 판
2018_08 [2018/08/17 08:28]
ehmoon
2018_08 [2018/08/20 10:56]
ehmoon
줄 418: 줄 418:
  
 생각임. 빨리 끝내고 연구와 함께 개발 진행하면 좋을것 같음. 생각임. 빨리 끝내고 연구와 함께 개발 진행하면 좋을것 같음.
 +
 +\\
 +\\
 +\\
 +
 +===== 20일 월요일 =====
 +
 +[Research]
 +
 +content extraction의 평가 프레임워크를 만들기 위해서는 수집해놓은 mht 파일의 feature를
 +
 +parsing해오는 작업이 필요함. 그래서 구글링을 해보니, 로컬 html 파일을 dom tree로 바꿔주는
 +
 +parser는 많이 존재해도 mht를 다이렉트로 파싱해주는 라이브러리는 거의 찾을 수 없음.
 +
 +결국 해결책은 일단 mht 파일을 html 파일로 converting을 하고 DOM tree로 파싱을 해야함.
 +
 +mht 파일 컨버팅 라이브러리 찾아봐야함.
 +
 +만약 feature를 잘 찾아냈다고 해도 비교하는 기준에 따라 성능 평가가 다르게 진행됨.
 +
 +일단 가장 먼저 DOM Tree끼리의 유사도를 비교하는 방법을 구현해보기 위해
 +
 +DOM tree similarity에 대해 찾아보니 이것 역시 잘 나오지 않음.
 +
 +그나마 찾은것은 예전에 눈문세미나 하면서 알게되었던 tree edit distance.
 +
 +LCS를 Tree에 응용한 기법인데 두개의 DOM element간에 같다 다르다의 정보를 넘어
 +
 +어느정도 같은지를 확률값으로 알 수 있기 때문에 유사도를 측정하기에 좋은 알고리즘임.
 +
 +라이브러리가 거의 없는것 같으니 논문 보면서 이 알고리즘 구현해야 할것 같음.
2018_08.txt · 마지막으로 수정됨: 2021/04/13 06:54 (바깥 편집)