/vanitas

Web scraping ile başlangıç URL'sinden diğer URL'leri tespit eder, HTML içeriklerini alır ve metne dönüştürür. Açık kaynak doğal dil işleme kütüphanesi olan Zemberek'in fonksiyonlarını kullanarak bir öneriler elde eder. Bu öneriler önyüzde hatalı kelime ve öneri kelimesi olarak gösterir.

Primary LanguageJavaGNU General Public License v3.0GPL-3.0

Türkçe Doğal Dil İşleme Yarışması
Serbest Kategori - TEKNOFEST

Static Badge     Static Badge     Static Badge     Static Badge     Static Badge

Proje Hakkında

Bu proje, kullanıcıdan alınan bir başlangıç URL'si üzerinden başlayarak web scraping ile ilgili işlemleri gerçekleştirir. Başlangıç URL'si içinde bulunan diğer URL'leri tespit eder ve belirli bir domain ile aynı uzantıya sahip olanları filtreler. Ardından bu URL'leri ziyaret ederek sayfa içeriğini HTML olarak alır ve bu HTML kodlarını parse ederek metin haline getirir. Elde edilen metin verilerini Zemberek, Morphology ve normalizasyon gibi doğal dil işleme tekniklerini kullanan bir API'ye gönderir. API'den gelen dil işleme sonuçlarını kullanarak öneriler elde edilir.

Takım Hakkında

Takım Adı: Vanitas
Takım Id: 561863
Takım Kaptanı: Osman Batur Arpacık
Takım Üyesi: Yunus Öz
İletişim

Kullanılan Teknolojiler

Static Badge       Static Badge

Doğal Dil İşleme Kütüphanesi

ZEMBEREK

Kullanılan Açık Kaynak Veri Seti

479k English Words

Kurulması Gereken Bağımlılıklar

java 21.0.6
apache maven wrapper 3.6.3
node v20.12.0
npm 10.5.1

Kullanım

1. Clone this repository
  //open cmd
  
  cd /d C:\
  
  mkdir vanitas
  
  cd vanitas
  
  git clone https://github.com/OsmanBaturArpacik/2024-Turkce-Dogal-Dil--sleme-Yarismasi-Serbest-Kategori.git

  cd 2024-Turkce-Dogal-Dil--sleme-Yarismasi-Serbest-Kategori
  
2. Build, Install & Run
  cd backend/nlp

  ./mvnw clean package

  ./mvnw spring-boot:run 

  cd ../../

  cd frontend/vanitas-front

  npm install

  npm run build

  npm start

Video: Demo

İletişim

 Static Badge  Static Badge  Static Badge

 Static Badge  Static Badge  Static Badge