이미지 다운로드를 하는 쪽에 오류가 있습니다.
Opened this issue · 14 comments
대충 1200번 쯤부터 오류가 발생하는 것 같습니다.
이번에 테스트한 디버그에서는 1226번 부터 오류로그가 뜨기 시작했는데,
앞서 실행한 json을 보면 1250번 쯤부터 실패하는 것 같습니다.
성공로그, 실패로그, 3000번 짜리 Json을 전달드립니다.
2020-10-21 15:02:52 [scrapy.pipelines.files] WARNING: File (unknown-error): Error downloading image from <GET https://firebasestorage.googleapis.com/v0/b/mobbin-15894.appspot.com/o/patterns%2Fnetflix_v.12.45.0_61.png?alt=media&token=3721fa5c-2aa6-47f2-b496-e47ddb001b61> referred in <None>: [<twisted.python.failure.Failure twisted.internet.error.ConnectionLost: Connection to the other side was lost in a non-clean fashion: Connection lost.>]
2020-10-21 15:02:52 [scrapy.downloadermiddlewares.retry] DEBUG: Gave up retrying <GET https://firebasestorage.googleapis.com/v0/b/mobbin-15894.appspot.com/o/patterns%2Fnetflix_v.12.45.0_63.png?alt=media&token=0b7a37d6-e58a-401a-8207-d1fdfe7370f8> (failed 3 times): [<twisted.python.failure.Failure twisted.internet.error.ConnectionLost: Connection to the other side was lost in a non-clean fashion: Connection lost.>]
단순 네트워크 커넥션 문제가 아닐까요?
이더넷도 상황은 비슷하네요. 네트워크 자체 유실은 아닌 것 같아요. 실제로 뒤로 가면 또 갑자기 다운로드가 되거든요. (data.json 참고)
제 예상으로는 메모리 문제 땜에 크롬 탭이 죽는 것 같아요. 싱글페이지 앱이라 1250장 정도 이미지를 올리면 미친듯이 느려지거든요
data.json 만은 신뢰도가 있는 상확인 것이죠? data.json 완료이후에, 이미지만 따로 받는식으로 파이프라인을 바꾸면 괜찮아질까 했는데 웹앱 내의 문제라면 1시간마다 리프레시... 를 해도, 스크롤 기반이라 마지막 작업위치까지 도달하는 로직또 꽤 귀찮아보이구요....
selenium 설정으로 웹 메모리 max 를 늘려서 시도해보는것도 방법중 하나일것 같은데, 뭐 어찌되었든 머신의 멤이 중요하긴하겠네요.
이미지를 한번 쿼리에 24개씩 밖에 안 불러오네요... 메모리 탓도 있겠지만 겁나 느립니다 ㅠ
실패했습니다...무슨짓을 해도 1200번 대에서 죽어버리네요.
- 1000번에 한번씩 pause >
- 크롬탭 새로고침 >
- 크롤링 다시 시작
요렇게 해야하지 않을까 싶네요
넵 봐보고 말씀드리겠습니다
새로 고침 방법도 2500번이 넘어가면서 부터는 끊기기 시작하네요..ㅠ
넵 주말에 그냥 파이프라인을 고쳐야겠네요 ㅋㅋ
네, 요 방법은 안될 것 같아요. data.json이라도 확보하려고 19시간째 돌리고 있는데.. 아직도 6355번 입니다. 중간 중간 새로고침하고 스크롤 다운하다가 시간 다 보내는 것 같네요. ㅠ
아.. 별의별 방법을 다 써본 것 같은데, 일단은 포기하고 자야할 것 같네요; 계속 중간에 실패를 합니다.