Database Lab

문서의 이전 판입니다!

6일 금요일

웹 페이지를 MHTML 파일로 긁어와 저장하는 프로그램 개발.

사전에 수집해놓은 500개 페이지를 대상으로 일괄처리 시도.

Python Beautiful soup을 사용할 예정이었으나, bs4에서 .mht convert 기능 찾다 안나와서 포기.

구글링 하던 중에 python 오픈소스 개발자들이 만든 chilkat 모듈 발견.

chilkat 으로 500개 페이지 일괄 converting.

문제점: 크롬에서 mht 파일이 안열린다..

chilkat 모듈을 이용하면 깨지는 페이지들이 발생.

결국 chrome extension 이용해서 다시 작업중

excel에서 읽어오는건 일단 실패했고, 파이선 chilkat 모듈로 했을때 깨지는 페이지에 대해서

크롬 익스텐션 돌려보려고 개발 중.

크롬 익스텐션 구조 익히고 popup.js 에서 background.js에 데이터 넘기는데 시간 소비.

chrome.pageCapture.saveAsMHTML 사용할때 콜백함수 사용법에 대해 더 알아봐야 함.

Chrome Extension 사용하여 mhtml 파일 저장하는 작업 완료.

chrome.pageCapture.saveAsMHTML 사용하는 방법은 이해했으나, 크롬 엔진이 API를 찾지 못하는 문제 발생.

manifest에 pageCapture, download 아무리 추가해도 해결 안됨.

크롬 flag 권한을 enable로 바꾸니까 해결 됨. (근성이형 도움)

Python Chilkat으로 다운 받았을 때 발생했었던 문제 2가지

(1) 깨지는 페이지 존재했다.

(2) mht 파일이 ie에서만 열리고 chrome에서 안열렸다.

2가지 모두 해결 됨.

내일부터는 xlsl 파일에 들어있는 data set 읽어와서 일괄처리 작업 진행.