본문 바로가기

반응형

webcrawling

Autohotkey#29, Selenium을 이용한 웹크롤링 2단계 : 사이트에서 자료 가져오기, Get the data from a site through Selenium youtu.be/1_jkCxCSNMQ 다음은 실제적으로 특정 사이트에서 내용을 읽어 오는 것을 진행겠습니다. 사실 이 부분은 파이썬에서 Selenium으로 내용을 읽고 난 후 pandas를 이용하여 DataFrame으로 변환하는게 더 효율적이지 않을까 생각이 듭니다. 하지만 우리는 autohotkey에서 진행할 것이라서 RegExMatch를 활용해야 합니다. 예를 들어 요즘 관심이 큰 주식시장의 데이터를 읽어오기 위한 것을 진행하겠습니다. 특정 종목의 "발행주식수"를 읽어 오려면 어떻게 해야 할까요? 매일 변하는 데이터이므로 그런 정보를 제공하는 사이트에서 받아야 합니다. 우리는 comp.fnguide.com 에서 받아오겠습니다. 해당 사이트에 접속하면 우상단에 종목명이나 코드명을 넣어야 합니다. 임의로.. 더보기
Autohotkey#28, Selenium을 이용한 웹크롤링 1단계 : 사이트 자동 로그인, Crawling 1st step : Site Login automatically youtu.be/MTBt71d8Seo autohotkey를 이용한 crawling을 요청하신 구독자분이 계신데, 정치적인 댓글공방등도 있고 해서 좀 조심스럽긴 합니다. 그럼에도 불구하고 기본적인 내용은 소개시켜도 되지 않을까 싶어서 준비를 하는데 시간이 좀 걸렸습니다. 저도 디버깅하는데 애를 먹어서 지연된점 양해 말씀 드립니다. 어쨋든, crawling관련해서 역시 대세는 Python입니다. Selenium이나 기타 제반 라이브러리가 풍부하기 때문이죠. 그럼에도 불구하고 어떤 이유로 인해서 autohotkey로 구현이 필요하셔서 요청하신 것이라 생각합니다. 그렇지만 autohotkey에서도 직접적으로 브라우저 제어를 하지 않고, Selenium을 이용하는게 일반적으로 보여집니다. 그래서 저희도 Selen.. 더보기

반응형