/BiQuants

Primary LanguageJupyter Notebook

Далее учитываются только значащие колонки т.е. начиная с ACT_INT__POLITICAL_VIEWING_ON_TV___LIBERAL_COMEDY_14823

  1. в файлах %сегмент%percent указано процентное соотношение кол-ва пустых в колонке относительно всех записей в сегменте

  2. в файлах %сегмент%amount указано кол-ва пустых в колонке

  3. в файлах %сегмент%Nulls-RowCount сколько записей имело то или иное кол-во пустых значений(первое - кол-во пустых в записи, второе - кол-во таких записей)

  4. в файлах %сегмент%nullCount-percent кол-во записей имеющих хоть один null и процентное отношение пустых записей ко всем записям

  5. в файлах %сегмент%nullColls указаны имена колонок в которых встречались пустые значения

p.s. сегменты пришлось достать из .gz ибо самый большой сегмент встроенный gzdecompressor не мог обработать(или я что-то не так делал(пока еще не разобрался))