문서의 선택한 두 판 사이의 차이를 보여줍니다.
양쪽 이전 판 이전 판 | |||
2018_08 [2018/08/17 08:28] ehmoon |
2018_08 [2018/08/20 10:56] ehmoon |
||
---|---|---|---|
줄 418: | 줄 418: | ||
생각임. 빨리 끝내고 연구와 함께 개발 진행하면 좋을것 같음. | 생각임. 빨리 끝내고 연구와 함께 개발 진행하면 좋을것 같음. | ||
+ | |||
+ | \\ | ||
+ | \\ | ||
+ | \\ | ||
+ | |||
+ | ===== 20일 월요일 ===== | ||
+ | |||
+ | [Research] | ||
+ | |||
+ | content extraction의 평가 프레임워크를 만들기 위해서는 수집해놓은 mht 파일의 feature를 | ||
+ | |||
+ | parsing해오는 작업이 필요함. 그래서 구글링을 해보니, 로컬 html 파일을 dom tree로 바꿔주는 | ||
+ | |||
+ | parser는 많이 존재해도 mht를 다이렉트로 파싱해주는 라이브러리는 거의 찾을 수 없음. | ||
+ | |||
+ | 결국 해결책은 일단 mht 파일을 html 파일로 converting을 하고 DOM tree로 파싱을 해야함. | ||
+ | |||
+ | mht 파일 컨버팅 라이브러리 찾아봐야함. | ||
+ | |||
+ | 만약 feature를 잘 찾아냈다고 해도 비교하는 기준에 따라 성능 평가가 다르게 진행됨. | ||
+ | |||
+ | 일단 가장 먼저 DOM Tree끼리의 유사도를 비교하는 방법을 구현해보기 위해 | ||
+ | |||
+ | DOM tree similarity에 대해 찾아보니 이것 역시 잘 나오지 않음. | ||
+ | |||
+ | 그나마 찾은것은 예전에 눈문세미나 하면서 알게되었던 tree edit distance. | ||
+ | |||
+ | LCS를 Tree에 응용한 기법인데 두개의 DOM element간에 같다 다르다의 정보를 넘어 | ||
+ | |||
+ | 어느정도 같은지를 확률값으로 알 수 있기 때문에 유사도를 측정하기에 좋은 알고리즘임. | ||
+ | |||
+ | 라이브러리가 거의 없는것 같으니 논문 보면서 이 알고리즘 구현해야 할것 같음. |