- Matej Gržinič
- Matej Lavrenčič
- Metod Zupančič
- Denis Popović
- steam.csv - Glavni podatki igre
- steam_description_data.csv - Opis igre
- steam_media_data.csv - slike igre
- steam_requirements_data.csv - minimalne in priporočljive strojne zahteve naprave glede na operacijski sistem
- steam_support_info.csv - povezave za pomoč uporabnikom igre
- steamspy_tag_data.csv - Lastnostne oznake igre
Zanima nas katere igre so najboljše ali najpopularnejše in kateri razvijalci, žanri in tipi iger prevladujejo v (trenutno) najbolj popularni spletni trgovini "Steam". Kaj se je obdržalo skozi čas in kaj ne, kakšni so trendi in kako je s cenami iger. Poiskati želimo najbolj pomembne lastnosti uspešnosti iger.
Podatke smo dobili na spletni strani kaggle (https://www.kaggle.com/nikdavis/steam-store-games).
Graf prikazuje vse kategorije in koliko iger jim pripada.
Graf prikazuje izdajalce (10), ki imajo največ iger.
- "Dota 2"
- "PLAYERUNKNOWN'S BATTLEGROUNDS"
- "Counter-Strike: Global Offensive"
- "Unturned"
- "Warframe"
- "Team Fortress 2"
- "Z1 Battle Royale"
- "Heroes & Generals"
- "Warface"
- "Grand Theft Auto V"
Prikazane igre (10), so tiste, ki imajo največjo uspešnost. Za izračunat uspešnost ene igre sem najprej pridobil vrednost pozitivnih ocen v odstodkih (glede na skupne ocene) in nato delil z lastniki igre. Manjša je izračunana vrednost, večja je uspešnost igre.
Graf prikazuje igre (10), ki imajo največji "median_playtime" podatek, s katerim preverimo, katere igre imajo najvišjo igranost.
Levi graf prikazuje histogram žanrov iger nefiltriranih podatkov.
Prvi 3 najboljši žanri iger so: "Indie", "Action", "Casual"
Desni graf prikazuje histogram žanrov iger, katerih lastništvo je bilo večje od razpona 0-20000.
Prvi 3 najboljši žanri iger so: "Indie", "Action", "Adventure"
Glede na levi graf pa je razvidno manjša razlika med prvima dvema žanroma, kar pove, da je dober delež "Indie" iger nepopularen vsaj iz lastnosti števila nakupov igre.
Graf prikazuje porazdelitev 50 najboljših iger (iz vidika največjega števila nakupov igre)
Prvi 3 najboljši žanri izbranih so: "Action", "Free to play", "Indie"
Na grafu lahko na x osi vidimo ceno iger in na y osi razmerje ocen izračunano po formuli positive / (positive + negative). Že iz grafa lahko odčitamo, da dražja kot je igra bolj verjetno je, da bodo igralci imeli pozitivno mnenje. Na grafu je dodana tudi premica, ki prikazuje kako so podatki razdeljeni.
Najbolj popularni razvijalci so tisti, ki imajo največje število privržencev (število prodanih kopij vseh njihovih iger). Tukaj ne potrebujemo pregledovati popularnosti vsake igre, saj se v igričarski industriji velikokrat zgodi, da razvijalci izdajo dobro ali slabo igro. Važno je, da jih ljudje poznajo oz., da posedujejo njihovo igro.
Iz zgornjih grafov lahko presodimo, da popularnost razvijalca ni odvisna od števila izdanih iger in ali je igra brezplačna, ali plačljiva. Npr.: "PUBG Corporation" in "Smartly Dressed Games" imata izdano samo po eno igro, pri tem da je prva plačljiva, druga pa ne, a sta oba razvijalca še vedno v zgornjih 10 po lestvici.
"Feral Interactive" pa v številu iger zelo odstopa od drugih razvijalcev zato, ker sodeluje z drugimi razvijalci na različnih platformah npr.:("Linux", "MacOs", "iOS", "Android"). Posledično je v podatkih zato tako veliko število izdanih iger.
Glede na popularnost je razvijalec "Valve" v ogromni prednosti pred drugimi. Podatkovna baza pripada "Steam" spletni trgovini, ki pa pripada razvijalcu "Valve". Obstajajo tudi druge spletne trgovine, ki so (do sedaj) vse manjše, zato popularnost razvijalca kljub morebitni pristranskosti podatkov ni zgrešena.
V zadnjih nekaj letih je Early Access zelo popularen med založniki, saj na tak način privabijo navdušence igre.
Skozi čas opažamo, da je rast Indie igric drastičen (v zadnjih 10 letih skoraj 60%), ker je izdelava iger postala lažja in s tem vzpodbudila samostojno izdajanje iger.
Zastonj igre počasi postajajo založbam uporabne zaradi visokega števila pridobljenih igralcev, kar posledično največkrat izboljša ugled založnikov in razvijalcev.
Za prikaz je bil uporabljen filtriran del podaktov, ki ima vsaj 100 ocen (vsota negativnih in pozitivnih ocen).
SteamVR Collectibles je splošno zelo draga platforma za razvoj iger zaradi nove tehnologije navidezne resničnosti, Steam Workshop označene igre pa so navadno zbirka večih iger za neko skupno ceno.
Includes Source SDK so starejše igre, katerih koda je odprta za skupnost v ideji ohranjanja življenja igre.
Velik delež MMO iger je Indie (katerih povprečna cena je v naslednjem grafu na strani najnižje vrednosti).
Žanr "Education", "Web Publishing" - zavzema razvojna orodja za izdelavo iger in programov. Steam Workshop označene igre pa so navadno zbirka večih iger za neko skupno ceno.
Massively Multiplayer - MMO že na prejšnjem grafu označena pod najcenejšimi
Casual - poceni (Indie) igre
Za prikaz je bil uporabljen filtriran del podaktov, ki ima vsaj 100 ocen (vsota negativnih in pozitivnih ocen).
Povprečna ocena: 0.760
Standardni odklon: 0.165
Beta porazdelitev se bolj prilega porazdelitvi ocen, ker večina ocen spada nad 75% in tu standardna normalna porazdelitev ne ustreza obliki.
Za mero razdalje smo uporabili Manhattansko razdaljo (cityblock),
za metodo povezovanja algoritem najdaljše razdalje (Farthest Point Algorithm or Voor Hees Algorithm).
t | silhouette score | |
---|---|---|
08 | 0.230 | |
09 | 0.231 | |
10 | 0.243 | |
11 | 0.249 | |
12 | 0.243 | |
13 | 0.252 | <--- |
14 | 0.244 | |
15 | 0.226 |
Z uporabo silhouette score smo dendogram prenehali barvati pri t = 13.
Rezultati gručenja so smiselno kreirane skupine predvsem glede na podobnosti žanrov, kategorij in nadaljevanj franšiz.
Kot vidimo iz slike je korelacija med atributi zelo slaba. Večje korelacije so med avg_playtime - median_playtime in developer - publisher, kar je smisleno. Atributa Owners (št. prodanih kopij) in reviews (št. ocen) sta tudi v močni korelaciji, saj z večjim številom ljudi, ki je kupilo igrico raste tudi število ocen.
Za X množico smo pustili le atribute ["average_playtime", "median_playtime", "price", "achievements", "positive_ratings", "negative_ratings", "required_age", "english"]
Razpon števila igralcev | količina |
---|---|
0-20000 | 18596 |
20000-50000 | 3059 |
50000-100000 | 1695 |
100000-200000 | 1386 |
200000-500000 | 1272 |
500000-1000000 | 513 |
1000000-2000000 | 288 |
2000000-5000000 | 193 |
5000000-10000000 | 46 |
10000000-20000000 | 21 |
20000000-50000000 | 3 |
50000000-100000000 | 2 |
100000000-200000000 | 1 |
Celotna podatkovna baza
Model | točnost | povprečna absolutna napaka |
---|---|---|
večinski | 0.688 | 117628 |
GaussianNB | 0.683 | 190052 |
DecisionTreeClassifier | 0.699 | 136991 |
KNeighborsClassifier (k = 3) | 0.688 | 109479 |
KNeighborsClassifier (k = 5) | 0.698 | 105057 |
KNeighborsClassifier (k = 7) | 0.708 | 98506 |
svm | 0.707 | 109438 |
Brez upoštevanja iger z manj kot 20000 igralci
Model | točnost | povprečna absolutna napaka |
---|---|---|
večinski | 0.337 | 463691 |
GaussianNB | 0.314 | 482595 |
DecisionTreeClassifier | 0.369 | 388465 |
KNeighborsClassifier (k = 3) | 0.372 | 326908 |
KNeighborsClassifier (k = 5) | 0.386 | 319793 |
KNeighborsClassifier (k = 7) | 0.391 | 296162 |
svm | 0.384 | 407363 |
Glede na dobljene rezultate sklepamo, da je napovedovanje že zaradi slabih korelacij prejšnje analize med atributi ni efektivno s povprečno točnostjo napovedovanja različnih modelov okoli 70%. Ob filtriranju le bolj relevantnih podatkov točnost upade na povprečno 30% natančnost, ker ima največji delež iger manj kot 20000 igralcev.