propublica/upton

A batteries-included framework for easy web-scraping. Just add CSS! (Or do more.)

HTMLMIT

Issues

New version?
#40 opened 9 years ago by nofxx
2
scrape_to_csv method should write to the CSV incrementally
#39 opened 10 years ago by jeremybmerrill
0
make scrape method return an enumerator
#38 opened 10 years ago by jeremybmerrill
0
problem scraping index page (Scraping 0 instances)
#36 opened 11 years ago by okliv
1
Pagination always double-downloads first page
#37 opened 10 years ago by jaypinho
3
Make Scraper instances additive
#35 opened 11 years ago by jeremybmerrill
1
Create ScrapedPage object
#32 opened 11 years ago by jeremybmerrill
1
Nokogiri::CSS::SyntaxError: unexpected '$' after ''
#30 opened 11 years ago by irosenb
3
Helper methods for scraping one page and for scraping multiple
#31 opened 11 years ago by jeremybmerrill
5
HTML Comment on stashed pages with info
#33 opened 11 years ago by jeremybmerrill
1
Refactor API
#5 opened 11 years ago by adelevie
20
The example in README.md does not work
#29 opened 11 years ago by paos
2
Switch from concatenating HTML to putting it in an array when paginating
#25 opened 11 years ago by jeremybmerrill
2
Handle pagination out-of-the-box
#17 opened 11 years ago by bxjx
2
pagination doesn't respect sleep time
#28 opened 11 years ago by jeremybmerrill
7
Recursive function causing a stack overflow
#23 opened 11 years ago by esagara
5
Warn users of slug collisions
#27 opened 11 years ago by jeremybmerrill
0
Use content-type to skip non-HTML instance pages
#22 opened 11 years ago by swapab
4
Improving url_to_filename
#20 opened 11 years ago by dannguyen
7
Downloading and Caching part
#10 opened 11 years ago by kgrz
7
find by xpath
#18 opened 11 years ago by abacha
5
More test coverage, more idiomatic tests
#6 opened 11 years ago by brianflanagan
15
relative url edge cases
#16 opened 11 years ago by jeremybmerrill
4
relative URLs
#8 opened 11 years ago by jeremybmerrill
2