it's course of Stepik with sertification
Suniy Intellekt
1- revolyutsiya -> agrar revolyutsiya -> 12000 yil 2- revolyutsiya -> fan revolyutsiyasi -> 500 yil 3- revolyutisya -> su'niy intellekt -> 10 yil
- arzon kompyuterlar
- Massive data
- open source code
3Vs*
-
Volume - katta hajmdagi ma'lumotlar to'plami paydo bo'lishi. - Pb, Zb
-
Velocity - Ma'lumotlar tezligi oshishi - 5G, 6G - patch, real time
-
Variety - Ma'lumotlarni xilma-xilligi va turlari ko'payishi - mobile, smm, trafik, IoT, smart-home,...
-
Volume ( obyom ) - Gb, Tb, Pb
-
velocity ( skorost ) - patch, real time
-
variety ( raznobraziya ) more data with mobile , smm, trafik
-
Variability
-
Ma'limotlarni yig'ish -> Yandex metrics, Google metrics, IoT, smart watch, statistika, report
-
Ma'lumotlarni boshqa ko'rinishga olib kelish -> Integratsiyalash, Analyst va Report tayyorlash
-
Ma'lumotlarni Saqlash -> Excel, --> Amazon, SQL, MySql, --> Data Warehouse (Oracle, AmazonRedShift, MarkLogic) --> Data Lakes (Azure, Hadoop, Google Cloud, S3 )
-
Ma'lumotlarni tahlil qilish -> Mathematical method -> regression, correlation, disperce
Machine Learning -> Tree, KNN, SVM, Random Forest, Adboost, Neuron
- Xulosalar qurish va tavsiyalar berish
-
Sbor Dannix ---> Yandex metriki, google metriki, IoT, smart watch,
-
Pereobrabotka dannix -> intergratsiya and ....
-
Xraneniya Dannix ---> Excel, --> Amazon, SQL, MySql, --> Data Warehouse (oracle, AmazonRedShift, MarkLogic) ---> Data Lakes (Azure, Hadoop, Goodle Cloud, S3 )
-
Analiz dannix . Mathematical method --> regression, correlyatsion, disperce,
Machine Learning -> -> Tree, KNN, SVM, Random forest , Adboost, Neuron
- Postreeniya vivodov i recomendatsiyyii
Прикрепленные файлы:
https://stepik.org/media/attachments/lesson/580046/diamonds_moded.xls
https://stepik.org/media/attachments/lesson/580046/movies.xls
Во время урока мы работали в программе Visual Studio Code. Это среда разработки от компании Microsoft, она доступна для скачивания в открытом доступе. Те же действия можно совершать прямо в браузере, ничего не скачивая - в Google Colaboratory. Для простоты обучения мы рекомендуем начать именно с Google Colaboratory, так как его интерфейс понятнее и комфортнее для освоения базовых навыков.
Инструкция:
- Открываем ссылку (https://colab.research.google.com/drive/14hyVLLtdth5_tyeIHhLx8n3VV8IGowXW#scrollTo=Q3OpRgkWjz8R).
- Скачиваем два прикрепленных файла.
- В Google Colaboratory слева нажимаем на папку "Файлы".
- Перемещаем туда оба скачанных файла.
Готово! Можно запускать, вносить изменения и играться с данными :)
- Туториал по работе с Google Colab: https://colab.research.google.com/notebooks/welcome.ipynb?hl=ru
Также делимся полезными ссылками, которые помогут глубже изучить алгоритмы машинного обучения.
Статьи:
Алгоритм решающего дерева - https://habr.com/ru/company/ods/blog/322534/
Алгоритм линейной регрессии - https://habr.com/ru/company/ods/blog/323890
Работа с пропусками - https://towardsdatascience.com/6-different-ways-to-compensate-for-missing-values-data-imputation-with-examples-6022d9ca0779
Работа с категориальными данными - https://towardsdatascience.com/categorical-encoding-using-label-encoding-and-one-hot-encoder-911ef77fb5bd
Алгоритм случайного леса - https://habr.com/ru/company/ods/blog/324402/
Градиентный бустинг - https://neurohive.io/ru/osnovy-data-science/gradientyj-busting/, https://alexanderdyakonov.files.wordpress.com/2017/06/book_boosting_pdf.pdf
Тюнинг LightGBM - https://lightgbm.readthedocs.io/en/latest/Parameters-Tuning.html, https://neptune.ai/blog/lightgbm-parameters-guide
Онлайн-курсы:
На русском:
https://ru.coursera.org/learn/vvedenie-mashinnoe-obuchenie
На английском:
https://www.youtube.com/watch?v=zcMnu-3wkWo&list=PLTB9VQq8WiaCBK2XrtYn5t9uuPdsNm7YE