Дневник

Most of the reports are related to the feature importance.
📝article_summaries     📝info_tables     🎯todo_list
🗣️seminar_pdfs     📄course_work

27/09/2020 - повторил 2 первые главы курса

Глава 1
  • Генерация текста:
    • через поиск похожих
    • по шаблону
    • с помощью нейросетей
  • При векторном разряженном представлении документа теряется зависимость слов
  • Предиктивные модели (BERT, Transformer и т.п.) не требуют размеченной выборки
  • Сходство текстов можно определить как долю совпадающих путей, проходимых в графовых представлениях текстов
  • В классификации с текстами:
    • большой длины линейные модели дают основное качество
    • короткими, в зависимости от объема gold_labels:
      • малый объем - ядерные методы
      • совсем нет - системы правил
  • В эксплоративном анализе применяются методы тематического регулирования: LDA, ARTM
Глава 2
  • В подходе с TF-IDF не используется информация о метках документов => теряем часть информация, если она есть

04/10/2020 - прочитал обзорную статью про online learning

  • В большенстве случаев рассматривается бинарная классификация и задача оптимизации

    причём ищется для , не зависящего от

  • В Contextual Bandits минимизируется

    где ,   - действие выбранное на t шаге

  • Есть ссылка на потенциально интересную статью про online deep learning

12/10/2020 - прочитал статью про variable importances in forests of randomized trees

  • Ограничения в работе: неповторение в детях признаков родителей, выборка полностью описывающая распределение , бесконечное кол-во полных рандомизированных деревьев
  • Если выбираем на этапе деления рандомно один признак и глубина дерева >= кол-во рел. признаков -> важность признака == 0 <-> он нерелевантный
  • Если выбираем > 1 признака и из них максимизирующий уменьшение энтропии -> появляется маскирующий эффект: некоторые релевантные признаки могут иметь сильно меньшую важность по сравнению с похожими рел. признаками
    • Добавление нерелевантных может сказаться на важности релевантных

26/10/2020 - прочитал пример, пример, пример с sklearn про permutation feature importance и из источника, источника про важность признаков

  • impurity-based feature importance for trees are strongly biased and favor high cardinality features
  • если в датасете есть скоррелированные признаки, то в подходе permutation importance таким признакам будет даваться малый вес
    • решение проблемы: иерархическая кластеризация по корреляциям рангового порядка Спирмена, выбор порога и сохранение одного объекта из каждого кластера
  • в случае random forest если сложность модели велика по сравнению с данными, алгоритм может переобучиться и даже рандомные признаки будут играть большую роль
  • drop column метод вычислительно трудозатратный, но точный
  • в методе lime особую роль играет подбор возбуждений экземпляра выборки

25/12/2020 - читаю статью «Fisher A, Rudin C, Dominici F (2018) All models are wrong but many are useful». В последнее время разбирал и конспектировал статьи.

23/01/2021 - начал ввести описание библиотек в таблице. Добавил rfpimp, eli5, cxplain.

08/02/2021 - доделываю слайды на семинар.

22/02/2021 - законспектировал две статьи.

28/02/2021 - законспектировал две статьи.

14/03/2021 - законспектировал обзор на filter methods и поэкспериментировал на датасете про диабет link.

23/03/2021 - законспектировал статью и сделал эксперимент с сэмплированием признаков.

29/03/2021 - добавил 2 эксперимента с копией признака и RFE.

14/04/2021 - добавил эксперименты с искусственным датасетом и прочитал обзор о недостатках permutation importance.

28/04/2021 - добавил 1-ую версию курсовой работы.

05/05/2021 - сделал еще эксперименты с искусственным датасетом, добавил аналог CXplain(официальная реализация не очень хорошо сработала).

14/05/2021 - обновил эксперименты и добавил 2-ую версию курсовой работы.