전체검색

사이트 내 전체검색

수행실적

수행실적

본문

수행실적

2024년

SK 이노베이션 기술원 Crawling Solution을 활용한 정보 DB화 구축 프로그램 개발

주관 SK 이노베이션
공동연구개발기관 SK C&C

수행설명

Crawling Solution을 활용한  SK 이노베이션 기술원 정보 DB화 구축 프로그램을 개발하였고 데이터 수집단계는 크롤링, 스크래핑 2단계로 나뉘어 지며 크롤링 단계에서는 제목, 출처(URL), 짧은 요약 추출을 개발 진행하고 스크래핑 단계에서는 본문 및 기타 페이지내에서 제공하는 모든 항목을 포함 하도록 개발하였습니다.


개발 대상 항목 

뉴스사이트 5개, 논문4개, 특허 1개 총 10개) 


아이티파인 Crawling Solotion 특징 

- Multi-Threading 기반 복수 사이트 대상 동시 수행

- 다양한 형식의 사이트 분석 및 Crawling 지원(HTML,  Ajax, JSON, XML 파싱 등)

- 추출한 다양한 Resource 다운로드 및 여러 형태 저장(Image, XLSX, PDF, ZIP 등)

- Crawler Blocking Request 대응 기술 탑재(XSS, CSRF, CAPTCHA)

- Cookie 방식 인증 우회 지원(로그인이 필요한 페이지 Crawling 대응 가능)
 



 


ITPine Crawling Solution 개발 화면 및 기능

- 회사별 멀티 법인 관리

- Custom API 연동 지원으로 확장 개발

- Crontab 형식의 다양한 스케줄링 관리

- 사이트별 스크래핑 항목/규칙 동적 구성

- 다양한 검색 엔진 지원(Google Custom Search Engine, RSS Google News Feed 등)



데이터 추출 예시

크롤링 단계에서 추출할 수 있는 항목 : 제목, 출처(URL), 요약 



뉴스 스크래핑 사이트별 가능 항목 : 본문, 작성일, 저자(혹은 출처)



논문 사이트별 스크래핑 가능 항목 : 초록, 연도, 저자, 저널명

 





특허 추출 가능 항목 : 제목, 초록, 출원번호, 출원인, 출원국가, 출원일, 출원상태