Hi 👋, I'm Maon

A passionate beginner python developer from Bulgaria

About the 'Violance-Against-women-News-Scrapper'

The project scope are the news related to vioalance against women collected from the three main TV website archives in Bulgaria.

Project details

The script can instantiate WebsiteArchive objects with inspected attributes (html classes and tags) and initialize searching throughout the media archive pages starting from page 1 until matching of existed in the media archive .csv article or until interruption.

Using tuples with predefined keywords related to the project scope, an article can be further inspected or passed.

- first, the script is looking at the articles in the current page;

- second, if a word from the first level keywords is in the article's title, the script is looking in a second tuple with keywords for exclusion and if None it continue by getting the article URL;

- third, the script uses second level of keywords to decide if the data must be kept or passed - this action is about looking for keywords in the article's text accessed by the URL via html class and tag;

- fourth, if the conditions for the first and second level are met, the script adds the data in a dictionary with columns:

  • "Title": 19-годишен е задържан за убийството на майка си, държал тялото в мазето! (*article's title)
  • "URL": https://btvnovinite.bg/bulgaria/19-godishen-e-zadarzhan-za-ubijstvoto-na-majka-si-darzhal-tjaloto-v-mazeto.html (*article's link)
  • "Source": btvnovinite.bg (*article's source/media)
  • "Type": TV news (*article's source/media type)
  • "DateTime": 2023-05-03 15:48:00 (*article's datetime of publishing)
  • "Article": 19-годишен младеж е задържан и обвинен за убийство на майка си, съобщават от Апелативната прокуратура във Велико Търново. По данни на прокуратурата 52-годишната жена живеела на квартира в апартамент в центъра на Ловеч заедно със сина си. На 20 февруари той обявил в районното управление на МВР, че от 13 февруари майка му е напуснала квартирата и оттогава е в неизвестност. След като през април в блока започнала да се носи неприятна миризма, собственикът на жилището бил повикан от София, отключил мазето си и там било открито тялото на жената. 19-годишният ѝ син е установен като извършител на престъплението и задържан на 1 май първоначално за срок от 24 часа, а след това за 72 часа. Предстои да бъде внесено искане за вземане на мярка за неотклонение „задържане под стража“.
  • "Location": Велико Търново, Ловеч (*article's text)
  • "Keywords1": майка (*first level keywords found in the article's title)
  • "Keywords2": уби (*second level keywords found in the article's text)
  • - fifth, it passes the dictionary data to dataframes and then export the data in a current file, update the media archive .csv with the new articles and also creates two additional .csv files with word counting columns for the article titles and for the article text

    * after the script completion the info.log file can be used to see which articles were successfully added or excluded ('---' prefix for the excluded ones and '+++' for the included ones ('***' prefix is for any cathed interruptions)

    maon0002

    Connect with me:

    https://www.linkedin.com/in/onik-manukov-7368b6222/

    Languages and Tools:

    java mysql oracle python sqlite

    maon0002