Türkiye'nin en büyük, en çok indexlenen, en çok üyeye sahip olan, en çok anlık aktiviteye sahip ve en popüler forumu Technopat'tan kazınmış ve Teknofest 2024 Doğal Dil İşleme Yarışması kapsamında zynp_ai tarafından oluşturulmuş, tamamen Türkçe ve açık kaynaklı en büyük veri setidir.Yaklaşık 3 milyon konu ve 21 milyon yanıt içeren 7GB'lık bu veri seti, Türkçe NLP ve LLM projeleri için kapsamlı bir kaynak sağlar.
- Benzersiz İçerik: Technopat forumundan elde edilen gerçek insanlar tarafından yazılmış 30'dan fazla katagoride veri içerir.
- Geniş Kapsam: Teknolojiden günlük yaşama kadar çeşitli konuları içerir.
- Büyük Ölçek: 3 milyon konu ve 21 milyon cevap ile Türkçe NLP ve LLM model çalışmaları için eşsiz bir kaynaktır.
- Güncel: Türkiye'nin en aktif forumlarından biri olan Technopat'tan elde edilen güncel veriler ve içerir.
- Çeşitlilik: Farklı yazım stilleri, jargon ve diyalektler içerir aynı zamanda 2012'den günümüze kadar çeşitli veriler içerir.
- Türkçe Doğal Dil İşleme (NLP) modellerinin eğitimi:
- Dil modelleri (LLM) için fine-tuning: Özellikle LLM modellerinin finetunungi için mükemmel doğrulukta saf bilgi sunar.Dil modelleri, doğal dil işleme (NLP) alanında büyük önem taşır ve çeşitli görevler için kullanılabilir. Fine-tuning, bu modellerin belirli bir veri kümesi üzerinde özelleştirilerek performanslarının artırılmasını sağlar. "zynpdata-zynp_ai-teknofest" veri seti, dil modellerinin fine-tuning işlemleri için mükemmel bir kaynak sunar.
- Sentiment analizi ve konu modelleme çalışmaları
- Türkçe soru-cevap sistemleri geliştirme
- Sosyal ağ analizi ve kullanıcı davranışı araştırmaları
Yukarıdaki butonu veya bu bağlantıyı kullanarak veri setini indirebilirsiniz.
Veri setini projenize doğrudan dahil etmek için farklı kütüphanelerin nasıl kullanılacağını gösteren aşağıdaki kod örneklerinden faydalanabilirsiniz.
Datasets Kütüphanesi:
from datasets import load_dataset
ds = load_dataset("sekerlipencere/zynpdata-zynp_ai-teknofest")
Pandas Kütüphanesi:
import pandas as pd
df = pd.read_json("hf://datasets/sekerlipencere/zynpdata-zynp_ai-teknofest/dataset.jsonl", lines=True)
Croissant Kütüphanesi:
from mlcroissant import Dataset
# The Croissant metadata exposes the first 5GB of this dataset
ds = Dataset(jsonld="https://huggingface.co/api/datasets/sekerlipencere/zynpdata-zynp_ai-teknofest/croissant")
records = ds.records("default")
Bu kısım, geniş kapsamlı bir web forumundan link toplama sürecini, karşılaşılan zorlukları ve geliştirilen çözüm stratejilerini detaylı bir şekilde incelemektedir. Çalışmanın temel amacı, forumda yer alan tüm konuların ve ilgili sayfa linklerinin eksiksiz bir şekilde toplanmasıdır. Bu süreçte karşılaşılan teknik ve operasyonel engeller, uygulanan yöntemler ve elde edilen sonuçlar ayrıntılı olarak ele alınmaktadır.
Veri toplama sürecinin ilk aşamasında, hedef web sitesinin sitemap'i kullanılarak tüm konu başlıklarının URL'leri elde edilmiştir. Bu yaklaşım, forumda açılmış olan tüm konuların ana sayfalarına erişim sağlamıştır. Ancak, her konunun potansiyel olarak birden fazla sayfadan oluşması, veri toplama sürecini daha karmaşık hale getirmiştir.
İlk olarak, her konu sayfasındaki sayfa bağlantılarının web parsing yöntemi ile toplanması düşünülmüştür. Bu amaçla geliştirilen script şu işlevleri yerine getirmeyi hedeflemiştir:
- Konu sayfalarını analiz etme
- Sayfa numaralarını tespit etme
- İlgili tüm sayfa URL'lerini çıkarma ve kaydetme
Bu yaklaşım, işlevsel olmasına rağmen, yüksek işlemci gücüne (16 çekirdekli Intel işlemci) rağmen beklenenden çok daha uzun süre almıştır. Parsing işleminin yoğun kaynak kullanımı ve zaman alıcı doğası, bu yöntemin büyük ölçekli veri toplama için uygun olmadığını göstermiştir.
Zaman kısıtlamaları ve verimsizlik nedeniyle, daha etkili bir yöntem geliştirme ihtiyacı doğmuştur. Bu doğrultuda yeni bir strateji oluşturulmuştur:
- Her konu sayfasındaki toplam mesaj sayısının çekilmesi
- Mesaj sayısına dayanarak toplam sayfa sayısının hesaplanması
- Hesaplanan sayfa sayısına göre URL'lerin programatik olarak oluşturulması
Bu yaklaşım için özel bir script geliştirilmiştir. Script'in temel işlevleri şunlardır:
- HTML verisinden mesaj sayısını çekme
- Sayfa sayısını hesaplama
- URL'leri oluşturma ve kaydetme
Geliştirilen script'e Link Toplama Scripti adresinden erişilebilmektedir.
Veri toplama sürecinde iki temel zorlukla karşılaşılmıştır:
- Problem: Forum sunucusu, yoğun veri toplama trafiği nedeniyle zaman zaman 501 hataları vermiştir.
- Çözüm: Hata alınan URL'ler kaydedilmiş ve daha sonra yeniden işlenmiştir. Bu yaklaşım, veri kaybını önlemiş ancak toplam işlem süresini uzatmıştır.
- Problem: Sürekli aynı IP adresinden yapılan istekler nedeniyle Cloudflare'ın "ben robot değilim" doğrulaması devreye girmiştir. Bu durum, yaklaşık her 12 saatlik çalışma periyodunun ardından 8 saatlik bir erişim engeli oluşturmuştur.
- Çözüm: Veri toplama süreci, bu kısıtlamayı dikkate alacak şekilde planlanmıştır. 12 saat aktif çalışma ve 8 saat bekleme şeklinde bir döngü oluşturulmuştur. Bu yaklaşım, sürecin verimliliğini düşürmüş ancak uzun vadeli veri toplama imkanı sağlamıştır.
Link toplama aşaması toplam bir hafta sürmüştür. Bu süreç sonunda yaklaşık 4.5 milyon URL başarıyla elde edilmiştir.
Bu çalışmanın ilk aşamasında, elimizde bulunan 4.5 milyon linki verimli bir şekilde işlemek için doğru bir script geliştirilmesi gerekti. Bu amaçla, planlama süreci titizlikle yürütüldü. Planlama sürecinde, kullanılacak kütüphaneler ve veri çekme işleminin optimizasyonu üzerinde duruldu. Uzun süren düşünme ve analiz aşamasının ardından, BeautifulSoup kütüphanesini kullanarak forumların konu sayfalarındaki verileri çekme kararı alındı.
Geliştirilen scriptin temel işlevi, forum sayfasından ilk olarak en üstte bulunan soru verisini çekmek ve bu veriyi JSON formatında saklamaktı. Ancak, bu işlemi gerçekleştirmeden önce, sorunun daha önce eklenip eklenmediği kontrol edildi. Bu kontrol mekanizması, veri tekrarını önleyerek işlem verimliliğini artırdı. Eğer soru daha önce eklenmişse, script doğrudan cevap çekme aşamasına geçmektedir. Bu sayede, işlem süresi kısaltılarak daha hızlı ve verimli bir veri işleme süreci sağlanmıştır.
Script, yeni bir soru tespit edildiğinde, bu soruyu JSON formatında saklamakta ve ayrıntılı soru çekme işlemine geçmektedir. Ayrıntılı soru çekme işlemi, kullanıcının mesajlar kısmında yazdığı ilk mesajı almayı ve bu veriyi JSON formatındaki veri setine eklemeyi içermektedir. İlk mesajın ardından, forum sayfasında yer alan tüm cevaplar toplanmakta ve JSON verisine eklenmektedir. Bu aşama, forumlardaki tüm önemli verilerin kapsamlı bir şekilde toplanmasını sağlamaktadır.
Veri çekme işleminin sonunda, her bir veri kaynağına ait sayfanın linki ve atıf bilgileri JSON verisine eklenmektedir. Bu işlem, verilerin kaynağını belirlemek ve referansları doğru şekilde tutmak açısından büyük önem taşımaktadır. Böylece, oluşturulan veri setinin doğruluğu ve güvenilirliği artırılmaktadır.
Geliştirilen script, topladığımız tüm linkler için veri çekme işlemini otomatik olarak gerçekleştirmektedir. Scriptin son haline şu bağlantıdan ulaşabilirsiniz: İçerik Toplama Scripti. Bu işlemin tamamlanması yaklaşık iki hafta sürmüştür. Bu sürenin uzun olmasının temel sebebi, link toplama aşamasında karşılaşılan sorunlardır. Ancak, bu süreç sonucunda Türkiye'nin en büyük açık kaynaklı ve Türkçe veri seti oluşturulmuştur.
Bu çalışma, geniş ölçekli bir veri toplama sürecinin detaylı bir incelemesini sunmaktadır. Geliştirilen script, forum sayfalarından veri çekme, veri işleme ve saklama süreçlerini otomatikleştirerek, verilerin doğru ve etkili bir şekilde toplanmasını sağlamıştır. Sonuç olarak, oluşturulan veri seti, çeşitli araştırmalar ve analizler için önemli bir kaynak teşkil etmektedir. Bu süreç, büyük veri işleme projeleri için bir model oluşturmakta ve veri toplama işlemlerinde karşılaşılan zorlukların nasıl aşılabileceğine dair önemli ipuçları sunmaktadır.
Toplama aşamasında elde edilen verilerin işlenmesi ve analizi sırasında, JSON formatındaki verilerin daha etkili bir şekilde yönetilmesi ve kullanılabilmesi adına belirli bir formatlama sürecine ihtiyaç duyulmuştur. JSON formatı, verilerin saklanması ve taşınması için yaygın olarak kullanılan bir formattır. Ancak, büyük veri setleriyle çalışırken, JSONL (JSON Lines) formatı gibi alternatif formatlar daha uygun olabilir.
Bu aşamada, JSON formatındaki verileri JSONL formatına dönüştüren küçük bir script geliştirilmiştir. JSONL formatı, her satırın bir JSON nesnesi olduğu bir yapıdır. Bu format, büyük veri setlerini daha verimli bir şekilde işlemek ve analiz etmek için tercih edilmektedir. JSONL formatı, verilerin satır bazında işlenmesini kolaylaştırır ve büyük veri dosyalarının yönetimini daha etkili hale getirir.
Geliştirilen script, JSON formatındaki verileri satır bazında JSONL formatına dönüştürmektedir. Bu süreç, aşağıdaki adımları içermektedir:
- Veri Okuma: JSON formatındaki veriler, script tarafından okunur ve hafızaya alınır.
- Dönüşüm İşlemi: Her bir JSON nesnesi, ayrı bir satıra yerleştirilir ve JSONL formatında yeniden yapılandırılır.
- Veri Yazma: JSONL formatındaki veriler, yeni bir dosyaya yazılır. Bu dosya, veri işleme ve analiz aşamalarında kullanılmak üzere hazır hale getirilir.
- Performans Artışı: JSONL formatı, büyük veri setlerinin daha hızlı ve verimli bir şekilde işlenmesini sağlar.
- Kolay Yönetim: JSONL formatında her satır bağımsız bir JSON nesnesi olduğundan, veri setleri üzerinde arama ve filtreleme işlemleri daha hızlı gerçekleştirilebilir.
- Veri Akışları: JSONL formatı, veri akışları ve veri işleme pipeline'ları ile uyumlu çalışarak, veri mühendisliği ve analiz süreçlerini kolaylaştırır.
Veri formatlama aşamasında, JSON formatındaki verilerin JSONL formatına dönüştürülmesi, veri yönetimi ve analizi süreçlerinde önemli bir iyileşme sağlamıştır. JSONL formatının sağladığı performans ve kullanım kolaylığı, büyük veri setlerinin etkili bir şekilde işlenmesini ve analiz edilmesini mümkün kılmıştır. Bu dönüşüm, veri setinin daha geniş uygulama alanlarına uyum sağlamasına ve veri işleme süreçlerinin optimizasyonuna katkıda bulunmuştur.
İçerik Örneği:
zynpdata veri seti, Türkiye'nin en büyük teknoloji forumu olan Technopat'tan elde edilmiş, geniş kapsamlı bir Türkçe veri setidir. Bu veri seti, doğal dil işleme, makine öğrenimi ve yapay zeka araştırmaları için zengin bir kaynak sunmaktadır.Özelikle türkçe llm model üretimi ve finetuning edilmesinde eşssiz bir kaynak sağlar.Veri seti her konu için toplam 5 adet veri başlığı içermektedir:
- Soru : Kullanıcın konu başlığında yazdığı metin buraya geliyor.
- Url : Konunun url'si buraya geliyor.
- Ayrıntılı Soru : Kullanıcının başlığı yazdıktan sonra konuya attığı ayrıntılı soru mesajı buraya geliyor.
- Cevaplar : Konuya verilmiş tüm cevaplar bu kısıma geliyor.
- Atıf : Veri seti ile ilgili atıf buraya geliyor.
Metrik | Değer |
---|---|
Toplam Konu Sayısı | 3,094,199 |
Toplam Cevap Sayısı | 21,000,000 |
Toplam Kelime Sayısı | 769,457,477 |
Toplam Dosya Boyutu | 7 GB |
Toplam Karakter Sayısı | 5,934,600,344 |
zynpdata veri seti, Technopat forumundan elde edilen çeşitli içerik türlerini kapsamaktadır:
- Forum Konuları: Kullanıcılar tarafından başlatılan tartışmalar
- Cevaplar: Konulara verilen yanıtlar
- Ürün İncelemeleri: Kullanıcıların teknolojik ürünler hakkındaki değerlendirmeleri
- Teknik Destek Soruları ve Yanıtları: Kullanıcıların teknik problemleri ve çözümleri
- Haberler ve Yorumlar: Teknoloji dünyasındaki gelişmeler ve kullanıcı yorumları
- Rehberler ve Öğreticiler: Çeşitli teknolojik konularda kullanıcı tarafından oluşturulan kılavuzlar
zynpdata veri seti, geniş bir konu yelpazesini kapsamaktadır. Ana kategoriler ve yaklaşık yüzdeleri şu şekildedir:
-
Donanım (%25)
- Bilgisayar Bileşenleri
- Dizüstü Bilgisayarlar
- Masaüstü Bilgisayarlar
- Mobil Cihazlar
-
Yazılım (%20)
- İşletim Sistemleri
- Uygulama Yazılımları
- Programlama Dilleri
- Oyunlar
-
İnternet ve Ağ Teknolojileri (%15)
- Web Hizmetleri
- Sosyal Medya
- Ağ Güvenliği
-
Tüketici Elektroniği (%10)
- Akıllı Ev Cihazları
- Ses ve Görüntü Sistemleri
- Giyilebilir Teknolojiler
-
Otomotiv Teknolojileri (%5)
- Elektrikli Araçlar
- Otonom Sürüş Sistemleri
-
Bilim ve Teknoloji Haberleri (%10)
- Yeni Teknolojik Gelişmeler
- Bilimsel Keşifler
-
Diğer (%15)
- Eğitim Teknolojileri
- Sağlık Teknolojileri
- Finans Teknolojileri
- Çevre Teknolojileri
- Dil: Tüm içerik Türkçedir.
- Temizlik: Ham veri temel bir temizleme işleminden geçirilmiştir:
- HTML etiketleri ve özel karakterler kaldırılmıştır.
- Kullanıcı adları ve e-posta adresleri anonimleştirilmiştir.
- Spam içerikler ve tekrar eden mesajlar ayıklanmıştır.
- Normalize Edilmemiş Metin: Yazım hataları, kısaltmalar ve internet jargonu korunmuştur, bu da gerçekçi NLP görevleri için idealdir.
Veri seti, 2012 yılından 2024 yılına kadar olan forum içeriklerini kapsamaktadır. Bu geniş zaman aralığı, Türkçe'nin ve teknoloji dilinin zaman içindeki evrimini incelemek için fırsatlar sunmaktadır.
- Tüm kişisel bilgiler (kullanıcı adları, e-posta adresleri, IP adresleri) anonimleştirilmiştir.
- Veri seti, Technopat'ın kullanım şartlarına ve gizlilik politikasına uygun olarak oluşturulmuştur.
- Araştırmacılar, bu veri setini kullanırken etik kurallara uymakla yükümlüdür.
- Türkçe Dil Modelleri Geliştirme
- Konu Modelleme ve Metin Sınıflandırma
- Duygu Analizi ve Fikir Madenciliği
- Soru-Cevap Sistemleri
- Metin Özetleme
- Teknoloji Trendleri Analizi
- Sosyal Ağ Analizi
- Kullanıcı Davranışı Modelleme
Bu kapsamlı veri seti, Türkçe doğal dil işleme alanında çalışan araştırmacılar ve geliştiriciler için benzersiz fırsatlar sunmaktadır.
Türkçe NLP alanındaki önemli veri setlerini daha detaylı inceleyerek, zynpdata-zynp_ai-teknofest projesinin benzersiz özelliklerini ve avantajlarını daha net bir şekilde ortaya koyabiliriz. Aşağıda, en önemli Türkçe veri setleriyle kapsamlı bir karşılaştırma sunulmuştur:
-
zynpdata-zynp_ai-teknofest
- Boyut: 769 milyon kelime
- Yapı: Forum tabanlı soru-cevap ve tartışma metinleri
- İçerik Türleri: Forum konuları, cevaplar, teknik tartışmalar, ürün incelemeleri
- Dilbilimsel Özellikleri:
- Günlük konuşma dili
- Teknoloji jargonu
- İnformal ve formal Türkçe karışımı
- Emoji ve internet kısaltmaları
- Konu Çeşitliliği: Çok yüksek (30'dan fazla kategori)
- Özel Kullanım Alanları:
- Soru-cevap sistemleri
- Diyalog modelleme
- Sentiment analizi
- Teknoloji trend analizi
- Kullanıcı davranış modelleme
- Veri Toplama Yöntemi: Özel geliştirilen web kazıma araçları
- Güncellenme Sıklığı: Tek seferlik geniş çaplı veri toplama (2024)
-
TTC-3600 Corpus
- Boyut: 3600 metin belgesi (yaklaşık 1 milyon kelime)
- Yapı: Kategorize edilmiş metin koleksiyonu
- İçerik Türleri: Haber metinleri
- Dilbilimsel Özellikleri: Temel metin kategorileri
- Konu Çeşitliliği: Orta (6 ana kategori)
- Özel Kullanım Alanları: Metin sınıflandırma, konu modelleme
- Veri Toplama Yöntemi: Otomatik web kazıma
- Güncellenme Sıklığı: Sabit, güncellenmemektedir
-
Turkish Wikipedia Dumps
- Boyut: Değişken (son sürüm yaklaşık 500 MB sıkıştırılmış metin)
- Yapı: Wiki formatında yapılandırılmış metin
- İçerik Türleri: Ansiklopedik makaleler
- Dilbilimsel Özellikleri: Hyperlink yapısı, kategori bilgileri
- Konu Çeşitliliği: Çok yüksek (genel ansiklopedi)
- Özel Kullanım Alanları: Bilgi çıkarımı, varlık tanıma, metin özetleme
- Veri Toplama Yöntemi: Kullanıcı katkıları
- Güncellenme Sıklığı: Sürekli (günlük güncellemeler)
-
Turkish News Dataset
- Boyut: 200,000 haber makalesi (yaklaşık 50 milyon kelime)
- Yapı: Kategorize edilmiş haber metinleri
- İçerik Türleri: Haber metinleri, başlıklar
- Dilbilimsel Özellikleri: Haber dili, resmi Türkçe
- Konu Çeşitliliği: Orta (haber kategorileri)
- Özel Kullanım Alanları: Duygu analizi, başlık üretme, metin özetleme
- Veri Toplama Yöntemi: Otomatik web kazıma
- Güncellenme Sıklığı: Periyodik (yıllık güncellemeler)
-
Turkish Web Corpus
- Boyut: 470 milyon kelime
- Yapı: Web sayfalarından oluşan metin koleksiyonu
- İçerik Türleri: Çeşitli web içerikleri
- Dilbilimsel Özellikleri: Karma dil kullanımı (resmi ve gayri resmi)
- Konu Çeşitliliği: Yüksek (genel web içeriği)
- Özel Kullanım Alanları: Dil modelleme, kelime vektörleri oluşturma
- Veri Toplama Yöntemi: Geniş çaplı web tarama
- Güncellenme Sıklığı: Belirli aralıklarla (2-3 yılda bir)
-
BOUN Corpus
- Boyut: 2 milyon kelime
- Yapı: Etiketlenmiş metin koleksiyonu
- İçerik Türleri: Gazete makaleleri, akademik metinler
- Dilbilimsel Özellikleri: Morfolojik ve sözdizimsel analiz içerir
- Konu Çeşitliliği: Sınırlı (genel haberler, akademik konular)
- Özel Kullanım Alanları: Dilbilimsel araştırmalar, metin sınıflandırma
- Veri Toplama Yöntemi: Manuel seçim ve etiketleme
- Güncellenme Sıklığı: Sabit, güncellenmemektedir
Özellik | zynpdata | BOUN Corpus | TTC-3600 | Turkish Wikipedia | Turkish News Dataset | Turkish Web Corpus |
---|---|---|---|---|---|---|
Boyut (Kelime) | 769M | 2M | ~1M | Değişken (~10M) | ~50M | 470M |
İçerik Çeşitliliği | Çok Yüksek | Düşük | Düşük | Orta | Düşük | Yüksek |
Zaman Aralığı | 2012-2024 | 2000-2018 | 2005-2015 | Sürekli | 2010-2020 | 2017-2019 |
Dil Çeşitliliği | Yüksek | Düşük | Düşük | Orta | Düşük | Orta |
Güncellik | Yüksek | Orta | Düşük | Çok Yüksek | Orta | Orta |
Kullanıcı Etkileşimi | Çok Yüksek | Yok | Yok | Sınırlı | Yok | Sınırlı |
Teknoloji Odaklı | Evet | Hayır | Hayır | Kısmen | Kısmen | Kısmen |
Erişilebilirlik | Açık | Kısıtlı | Açık | Açık | Kısıtlı | Ücretli |
Yapısal Özellikler | Forum Yapısı | Etiketli | Kategorize | Wiki Formatı | Kategorize | Ham Web |
Dilbilimsel Analiz | Potansiyel Var | Var | Sınırlı | Yok | Yok | Yok |
Veri Toplama Yöntemi | Özel Geliştirme | Manuel | Otomatik | Kullanıcı Katkısı | Otomatik | Otomatik |
Güncellenme | Tek Seferlik | Statik | Statik | Dinamik | Periyodik | Aralıklı |
-
Diyalog Modelleme ve Soru-Cevap Sistemleri
- Forum yapısı, gerçek kullanıcı etkileşimlerini içerir.
- Soru sorma ve cevaplama kalıplarının geniş örneklemini sunar.
- Kullanım Senaryosu: Türkçe chatbot ve sanal asistan geliştirme.
-
Teknoloji Odaklı Dil Modelleme
- Zengin teknoloji jargonu ve terminolojisi içerir.
- Teknik konularda güncel dil kullanımını yansıtır.
- Kullanım Senaryosu: Teknoloji alanında uzmanlaşmış NLP modelleri geliştirme.
-
Sentiment Analizi ve Kullanıcı Davranış Modelleme
- Ürün incelemeleri ve kullanıcı yorumları içerir.
- Geniş bir duygu ve görüş yelpazesi sunar.
- Kullanım Senaryosu: E-ticaret ve ürün analizi için duygu analizi modelleri.
-
Zaman Serisi Analizi ve Trend Tespiti
- 12 yıllık bir zaman aralığını kapsar.
- Teknoloji trendlerinin ve dil kullanımının evrimini yansıtır.
- Kullanım Senaryosu: Teknoloji trendleri tahmin modelleri, dil değişimi araştırmaları.
-
İnformal ve Formal Dil Karışımı
- Günlük konuşma dili ile teknik dilin bir arada kullanımını içerir.
- Emoji ve internet kısaltmalarını içerir.
- Kullanım Senaryosu: Daha doğal ve çeşitli dil anlama modelleri geliştirme.
-
Geniş Konu Yelpazesi
- 30'dan fazla kategori ile çeşitli konuları kapsar.
- Teknolojiden günlük yaşama geniş bir spektrum sunar.
- Kullanım Senaryosu: Genel amaçlı dil modelleri ve konu sınıflandırma sistemleri.
-
Büyük Ölçekli Veri
- 769 milyon kelime ile geniş bir öğrenme kaynağı sunar.
- Derin öğrenme modelleri için ideal boyutta veri sağlar.
- Kullanım Senaryosu: Büyük ölçekli Türkçe dil modelleri eğitme (örn. BERT, GPT türevleri).
-
Forum Dinamikleri
- Kullanıcı etkileşimleri, tartışma zincirleri ve konu akışları içerir.
- Sosyal medya benzeri dil kullanımını yansıtır.
- Kullanım Senaryosu: Sosyal ağ analizi, tartışma modelleme.
Bu kapsamlı karşılaştırma, zynpdata-zynp_ai-teknofest projesinin Türkçe NLP alanında benzersiz bir kaynak olduğunu göstermektedir. Projenin boyutu, çeşitliliği, güncelliği ve özellikle teknoloji odaklı yapısı, onu diğer mevcut Türkçe veri setlerinden ayırmakta ve çok çeşitli NLP uygulamaları için ideal bir kaynak haline getirmektedir.
- Python ile Veri Kazıma(Web Scraping) Çalışması Medium
- Python BeautifulSoup Modülü Sinan Erdinç
- Python ile Web Scraping: BeautifulSoup Kullanımı Medium
- Requests Ve Beauti̇fulsoup Modüllleri̇yle İnternetten Veri̇ Çekme Yazılım Topluluğu
- Implementing Web Scraping in Python with BeautifulSoup GeeksforGeeks
- How to Use the JSON Module in Python – A Beginner's Guide
- How to Create a Telegram Bot using Python
- Python Multiprocessing Tutorial
- Create JSONL with Python
Projeye katkıda bulunmak isterseniz, lütfen önce CONTRIBUTING dosyamızı kontrol edin.
Bu proje Apache 2.0 Lisansı altında lisanslanmıştır. Detaylar için LICENSE dosyasına bakın.
Bu veri setini çalışmalarınızda kullanıyorsanız, lütfen aşağıdaki gibi atıfta bulunun:
@misc{zynpdata2024,
author = {sekerlipencere},
title = {zynpdata: Türkiye'nin En Büyük Açık Kaynaklı Türkçe Forum Veri Seti},
year = {2024},
publisher = {GitHub},
journal = {GitHub Repository},
howpublished = {\url{https://github.com/sekerlipencere/zynpdata-zynp_ai-teknofest}}
}
Sorularınız veya geri bildirimleriniz için lütfen issues bölümünü kullanın veya yusufd.polar@gmail.com adresinden bize ulaşın.
zynpdata-zynp_ai-teknofest ile NLP ve LLM çalışmalarınıza güç katın! 🚀🇹🇷