project-deepform/deepform

Experimental form data extraction for journalism

PythonMIT

Issues

How are non-entity tokens handled ?
#110 opened 2 years ago by pzdkn
0
Access to OCR outputs
#109 opened 3 years ago by vishekau
0
Issue writing the dataset as parquet in add_features
#105 opened 4 years ago by radkoff
1
About how to obtain original pdf files for 2012, 2014
#103 opened 4 years ago by persistforever
3
No token file for ...
#104 opened 4 years ago by zhxgj
0
Update wand version 0.9 -> 0.10
#92 opened 4 years ago by moredatarequired
0
train.py crashes on save if passed a custom model name
#84 opened 4 years ago by moredatarequired
0
Hand check 2020 sample data, all fields
#61 opened 4 years ago by jstray
0
Enable data conversion to run without huge memory allocation
#41 opened 4 years ago by moredatarequired
0
Fix 2012 duplicate data problems
#46 opened 4 years ago by jstray
0
Create infer.py
#49 opened 4 years ago by jstray
0
Load 1000 random 2020 documents into Overview
#48 opened 4 years ago by jstray
1
Train on combined 2012 and 2014 data
#55 opened 4 years ago by jstray
0
Run complete model on 2020 sample documents and upload to Overview
#60 opened 4 years ago by jstray
0
Run totals model on 2020 data
#50 opened 4 years ago by jstray
1
Modify create_training_data.py to create labels for advertiser and contract number
#47 opened 4 years ago by jstray
0
Merge fuzzy-matching code into infer.py
#58 opened 4 years ago by jstray
0
Continuous 2020 downloading and inference
#59 opened 4 years ago by jstray
0
Hand-check 2020 test totals
#57 opened 4 years ago by jstray
0
Run totals model on 2020 sample documents and upload to Overview
#56 opened 4 years ago by jstray
0
Merge 2012 and 2014 training data
#54 opened 4 years ago by jstray
0
Create 2014 tokens.csv
#53 opened 4 years ago by jstray
0
Generate start and end date labels from 2014 data
#52 opened 4 years ago by jstray
0
Train model on advertiser, contract number in 2012 data
#51 opened 4 years ago by jstray
0
Match output token more intelligently
#18 opened 4 years ago by moredatarequired
1
Stop logging password as a config variable
#27 opened 4 years ago by moredatarequired
1
Add script to automate retrieving training data
#15 opened 4 years ago by moredatarequired
2
Make docker container available as a development environment
#14 opened 4 years ago by moredatarequired
0
Pull PDFs on demand for annotation
#16 opened 4 years ago by moredatarequired
0
Add license
#17 opened 4 years ago by moredatarequired
0
Create test version of sweep
#22 opened 4 years ago by moredatarequired
0