Most of the reports are related to the feature importance.
📝article_summaries 📝info_tables 🎯todo_list
🗣️seminar_pdfs 📄course_work
27/09/2020 - повторил 2 первые главы курса
- Генерация текста:
- через поиск похожих
- по шаблону
- с помощью нейросетей
- При векторном разряженном представлении документа теряется зависимость слов
- Предиктивные модели (BERT, Transformer и т.п.) не требуют размеченной выборки
- Сходство текстов можно определить как долю совпадающих путей, проходимых в графовых представлениях текстов
- В классификации с текстами:
- большой длины линейные модели дают основное качество
- короткими, в зависимости от объема gold_labels:
- малый объем - ядерные методы
- совсем нет - системы правил
- В эксплоративном анализе применяются методы тематического регулирования: LDA, ARTM
- В подходе с TF-IDF не используется информация о метках документов => теряем часть информация, если она есть
04/10/2020 - прочитал обзорную статью про online learning
-
В большенстве случаев рассматривается бинарная классификация и задача оптимизации
-
В Contextual Bandits минимизируется
-
Есть ссылка на потенциально интересную статью про online deep learning
12/10/2020 - прочитал статью про variable importances in forests of randomized trees
- Ограничения в работе: неповторение в детях признаков родителей, выборка полностью описывающая распределение , бесконечное кол-во полных рандомизированных деревьев
- Если выбираем на этапе деления рандомно один признак и глубина дерева >= кол-во рел. признаков -> важность признака == 0 <-> он нерелевантный
- Если выбираем > 1 признака и из них максимизирующий уменьшение энтропии -> появляется маскирующий эффект: некоторые релевантные признаки могут иметь сильно меньшую важность по сравнению с похожими рел. признаками
- Добавление нерелевантных может сказаться на важности релевантных
26/10/2020 - прочитал пример, пример, пример с sklearn про permutation feature importance и из источника, источника про важность признаков
- impurity-based feature importance for trees are strongly biased and favor high cardinality features
- если в датасете есть скоррелированные признаки, то в подходе permutation importance таким признакам будет даваться малый вес
- решение проблемы: иерархическая кластеризация по корреляциям рангового порядка Спирмена, выбор порога и сохранение одного объекта из каждого кластера
- в случае random forest если сложность модели велика по сравнению с данными, алгоритм может переобучиться и даже рандомные признаки будут играть большую роль
- drop column метод вычислительно трудозатратный, но точный
- в методе lime особую роль играет подбор возбуждений экземпляра выборки
25/12/2020 - читаю статью «Fisher A, Rudin C, Dominici F (2018) All models are wrong but many are useful». В последнее время разбирал и конспектировал статьи.
23/01/2021 - начал ввести описание библиотек в таблице. Добавил rfpimp, eli5, cxplain.
08/02/2021 - доделываю слайды на семинар.
22/02/2021 - законспектировал две статьи.
28/02/2021 - законспектировал две статьи.
14/03/2021 - законспектировал обзор на filter methods и поэкспериментировал на датасете про диабет link.
23/03/2021 - законспектировал статью и сделал эксперимент с сэмплированием признаков.
29/03/2021 - добавил 2 эксперимента с копией признака и RFE.
14/04/2021 - добавил эксперименты с искусственным датасетом и прочитал обзор о недостатках permutation importance.
28/04/2021 - добавил 1-ую версию курсовой работы.
05/05/2021 - сделал еще эксперименты с искусственным датасетом, добавил аналог CXplain(официальная реализация не очень хорошо сработала).
14/05/2021 - обновил эксперименты и добавил 2-ую версию курсовой работы.