Data format error in '5m' dataset
jcwleo opened this issue · 1 comments
jcwleo commented
Movie id : 134272
title eng :
'花右京メイド隊 , 2004\t\t청소년 관람불가\n134273\t독수리오형제 극장판 : 파이널 카운트 0002\tGatchaman , 1994\t\t12세 관람가\n134274\t독수리오형제 극장판 : 수수께끼의 레드 임펄스\tGatchaman , 1994\t\t12세 관람가\n134275\t독수리오형제 극장판 : 독수리 5형제 VS 터틀킹\tGatchaman , 1994\t\t12세 관람가\n134276\t내 일상에는 변화가 없다\t2012\t\t\n134277\t2015 베를린 필하모닉 신년음악회\tBerlin philharmonic New Year’s Gala , 2015\t2015\t전체 관람가\n134278\t2015 빈 필하모닉 신년음악회\tVienna Philharmonic Orchestra New Year\'s Concert 2015 , 2015\t2015\t전체 관람가\n134279\t탐험 드리랜드 2기\t探検ドリランド -1000年の真宝- , 2013\t2014\t\n134280\t대륙의 탄생\t2013\t2014\t전체 관람가\n134281\t폴 매카트니의 락쇼\tROCKSHOW , 2013\t2015\t전체 관람가\n134282\t아이돌간호사모모코\tナース白書 , NURSE BIBLE , 2006\t\t12세 관람가\n134283\t\t\t\t\n134284\tIn Full Gallop\tCwal , 1996\t\t\n134285\t오늘은 좋은 날\t1995\t\t\n134286\t리버맨 인 러브\tLieberman in Love , 1995\t\t\n134287\t세상엿보기\t1995\t\t\n134288\t애버딘\tAberdeen , 2000\t\t\n134289\t씨 앤 리슨\tVer y escuchar , See and Listen , 2013\t\t\n134290\t엘 반조\tEl banjo , 2014\t\t\n134291\t판타스티크\tFANTASTIQUE , 2014\t\t\n134292\tL\'AIR D\'ETRE LA\t2013\t\t\n134293\t아워 섀도우즈 윌\tOUR SHADOWS WILL , 2013\t\t\n134294\t사우다드\tSAUDADE , 2012\t\t\n134295\t아버지에게\tCarta a un padre , Letter to a Father , 2014\t\t\n134296\t시티 오브 사인스\tLa ciudad de los signos , City of Signs , 2009\t\t\n134297\t트리즈\tArboles , Trees , 2013\t\t\n134298\t일루션\tIlusion , Hope , 2013\t\t\n134299\t파라다이소\tParadiso , 2013\t\t\n134300\t엑스트라라이프\tVidaextra , ExtraLife , 2013\t\t\n134301\t11211, 더 네이버후드 오브 더 포킹 애비뉴\t11211, El Barrio de Avenidas que se bifurcan ,
... ]
You can see this error.
import pandas as pd
import csv
from kmr_dataset import get_paths
path = get_paths(size='5m')
movie_path = path[3]
with open(movie_path) as f:
csv_reader = csv.reader(f, delimiter='\t')
for idx, row in enumerate(csv_reader):
if idx in [121625, 121626, 121627]:
print(row)
df = pd.read_csv(movie_path, delimiter= '\t', error_bad_lines=False)