brightics/studio

Python Load 함수가 32gb 이상의 데이터를 load하지 못하는 문제

jinhwanhan opened this issue · 2 comments

Python Load 함수가 32gb 이상의 데이터를 load하지 못하는 문제가 있습니다.

당시 발생한 에러 로그를 첨부합니다. (테스트 데이터는 50gb 상당)

20200210_105757

실행 환경은 Brightics Studio Linux 버전이며, 해당 서버의 스펙은 cpu 36core, 메모리 1024gb, 디스크 10TB 입니다.

6400만 로우, 5기가 데이터를 read csv 로 로드했을 때 20분만에 로드됨. res 는 약 40기가 사용함.

VendorID,tpep_pickup_datetime,tpep_dropoff_datetime,passenger_count,trip_distance,RatecodeID,store_and_fwd_flag,PULocationID,DOLocationID,payment_type,fare_amount,extra,mta_tax,tip_amount,tolls_amount,improvement_surcharge,total_amount,congestion_surcharge
1,2020-01-01 00:28:15,2020-01-01 00:33:03,1,1.20,1,N,238,239,1,6,3,0.5,1.47,0,0.3,11.27,2.5
1,2020-01-01 00:35:39,2020-01-01 00:43:04,1,1.20,1,N,239,238,1,7,3,0.5,1.5,0,0.3,12.3,2.5
1,2020-01-01 00:47:41,2020-01-01 00:53:52,1,.60,1,N,238,238,1,6,3,0.5,1,0,0.3,10.8,2.5
1,2020-01-01 00:55:23,2020-01-01 01:00:14,1,.80,1,N,238,151,1,5.5,0.5,0.5,1.36,0,0.3,8.16,0
2,2020-01-01 00:01:58,2020-01-01 00:04:16,1,.00,1,N,193,193,2,3.5,0.5,0.5,0,0,0.3,4.8,0

50기가를 바로 사용하는 것 보다 전처리를 해서 사용이 필요할 것 같습니다.

추가적으로 좀 더 테스트를 해서 다시 댓글 남기겠습니다.