Impossible to generate dataset
clemsciences opened this issue · 2 comments
I'm following README.md instructions.
# Download PHI (this will take a while)
python -c 'import pythia.data.phi_download; pythia.data.phi_download.main()'
This displays at the end of download: 100%|████████████████████████████████▉| 399999/400000 [3:54:41<00:00, 28.41it/s].
Then when I run this instruction:
# Process and generate PHI-ML
python -c 'import pythia.data.phi_process; pythia.data.phi_process.main()'
I get:
0it [00:00, ?it/s]
{'sentences': 0, 'words': 0, 'texts': 0}
Word frequencies
Character frequencies
Texts: 0
{'guess_wrong': 0, 'test_val': 0, 'missing_ratio': 0.0}
texts_train
{'sentences': 0, 'words': 0, 'texts': 0}
texts_valid
{'sentences': 0, 'words': 0, 'texts': 0}
texts_test
{'sentences': 0, 'words': 0, 'texts': 0}
Does this mean that download failed?
Hi! We just updated the dataset download script, this has now solved the issue.
Thank you for bringing this up.
Thanks! It worked. I got the following output:
python -c 'import pythia.data.phi_download; pythia.data.phi_download.main()'
100%|████████████████████████████████▉| 399999/400000 [1:09:57<00:00, 95.31it/s]
python -c 'import pythia.data.phi_process; pythia.data.phi_process.main()'
100%|█████████████████████████████████| 214161/214161 [01:15<00:00, 2843.03it/s]
{'sentences': 96256, 'words': 3500493, 'texts': 42190}
Word frequencies
-- καὶ: 168583
-- 0: 47576
-- τοῦ: 45172
-- δὲ: 40109
-- τῶν: 33308
-- ἐν: 30332
-- τὸν: 30126
-- τὸ: 28595
-- τῆς: 27958
-- τὴν: 22334
-- ἐπὶ: 21368
-- τῶι: 20932
-- ὁ: 18772
-- εἰς: 18752
-- τοῖς: 17264
-- τὰ: 15707
-- τε: 15173
-- τοὺς: 12672
-- -: 12166
-- κατὰ: 10979
Character frequencies
-- : 3404237
-- -: 2132288
-- ν: 1475714
-- α: 1392180
-- ο: 1383861
-- τ: 1330535
-- ι: 1009142
-- ε: 909268
-- ς: 821363
-- ρ: 781441
-- ]: 671922
-- [: 671290
-- κ: 670013
-- σ: 598656
-- λ: 567470
-- π: 562475
-- μ: 538639
-- δ: 490595
-- υ: 482379
-- ί: 386737
-- ω: 325679
-- η: 275299
-- ὶ: 265070
-- ἀ: 256737
-- ά: 250786
-- έ: 247456
-- γ: 243207
-- θ: 237549
-- ἐ: 227562
-- ό: 189918
-- χ: 187129
-- φ: 176948
-- ὸ: 157386
-- ῶ: 154181
-- ῦ: 119440
-- ύ: 115600
-- β: 113471
-- ῖ: 110281
-- ῆ: 108904
-- ὐ: 98646
-- ή: 95886
-- ὰ: 95150
-- ἰ: 76201
-- ξ: 69888
-- ὴ: 68373
-- ὲ: 67858
-- ἱ: 56240
-- 0: 53748
-- ᾶ: 47426
-- ώ: 46279
-- ἔ: 44859
-- ἄ: 43958
-- ὺ: 36788
-- ὑ: 35751
-- ὁ: 34531
-- ἡ: 31447
-- ἑ: 29383
-- ζ: 25445
-- ψ: 24329
-- ὀ: 18418
-- ῳ: 16891
-- ὅ: 16782
-- ῷ: 16473
-- ἕ: 13093
-- ῇ: 12877
-- ἁ: 12687
-- ἶ: 12342
-- ἴ: 10169
-- ῃ: 9523
-- ῥ: 9062
-- ὔ: 8792
-- ὼ: 8294
-- ὧ: 7063
-- ἢ: 6415
-- ἂ: 6178
-- ᾳ: 5968
-- ἵ: 5778
-- ὄ: 5239
-- ὡ: 4793
-- ὠ: 4674
-- ΐ: 4599
-- ὃ: 4468
-- ἷ: 3962
-- ἅ: 3833
-- ϊ: 3683
-- ἥ: 3351
-- ἠ: 3345
-- ὗ: 3304
-- ἦ: 3299
-- 1: 3200
-- ὖ: 3188
-- ἧ: 3133
-- ὕ: 3076
-- ἃ: 2293
-- ἣ: 2210
-- 2: 2202
-- 3: 1919
-- ἤ: 1811
-- 4: 1684
-- 5: 1619
-- ᾷ: 1552
-- ὥ: 1426
-- ὢ: 1376
-- ἆ: 1340
-- 6: 1245
-- 7: 1125
-- ἇ: 1061
-- ὦ: 1024
-- 8: 970
-- 9: 952
-- ᾧ: 881
-- ἓ: 745
-- ὤ: 657
-- ὓ: 572
-- ἳ: 560
-- ῴ: 486
-- ᾗ: 464
-- ἒ: 412
-- ϛ: 391
-- ϙ: 282
-- ϋ: 219
-- ᾇ: 171
-- ᾖ: 171
-- ῄ: 134
-- ῤ: 116
-- ἲ: 103
-- ᾑ: 88
-- ᾠ: 82
-- ΰ: 76
-- ᾴ: 63
-- ὣ: 61
-- ὂ: 55
-- ᾐ: 33
-- ᾱ: 33
-- ᾤ: 26
-- ᾔ: 21
-- ᾄ: 14
-- ῂ: 13
-- ᾡ: 11
-- ῑ: 6
-- ᾀ: 6
-- ᾦ: 5
-- ᾕ: 5
-- ὒ: 5
-- ᾅ: 4
-- ᾆ: 4
-- ᾁ: 3
-- ῡ: 2
-- ῲ: 2
-- ᾥ: 1
-- ᾰ: 1
-- ᾲ: 1
Missing frequencies
0.09157954756880551
Texts: 42190
{'guess_wrong': 3826, 'test_val': 5946, 'missing_ratio': 0.061657094713074595}
texts_train
{'sentences': 83433, 'words': 3031922, 'texts': 36244}
texts_valid
{'sentences': 6312, 'words': 227361, 'texts': 2907}
texts_test
{'sentences': 6511, 'words': 241210, 'texts': 3039}