-
crawling.rb
-
Refactoring.rb
-
wc_crawling.rb
-
post_crawler.rb
-
XHR 부분...
이런 것을 긁으려고 한다... json으로 날라온 거!!
XHR을 뒤지네!!
Request
URL:http://webtoon.daum.net/data/pc/webtoon/list_daily_ranking/finished?timeStamp=1510902444663
Request Method:GET
Status Code:200 OK
Remote Address:113.29.187.36:80
Referrer Policy:no-referrer-when-downgrade
이런 부분!!
-
JSON 방식으로 통신하는 이유는, 웹하고, 앱 만들때도 똑같이 보내주면 되니 편하지 html로 data 넣는 것 보다.
-
이런 crawling을 어디까지 쓸 수 있냐면!!
- 지도에서 길찾기도 json으로 긁어 올 수 있다!!
- session 정보가 cookie에 들어있네, 같이 넘기면 가져다 쓸 수 있다!! header 정보 중요하지!!
-
Session
- request(client) -> logic(server) -> response(server) -> html/json/csv(client)
- 이런 무상태성을 띄어 넘는 것이 session이다. session은 기본적으로 cookie다. cookie는 없애지 않는 이상 남아 있는다.
- set-cookie 부분을 Header에서 확인 할 수 있다.
- refresh 할 때마다 set-cookie가 변하네.. 계속 session을 통해서 tracking 한다!!
- 그 cookie를 그대로 이용한다!!
- request(client) -> logic(server) -> response(server) -> html/json/csv(client)
-
get방식 안되면 post방식 했을 때 되는 경우도 있다!!