Семинар про кластеризацию на базе анализа формальных понятий
▫️ 12 февраля (среда), 17:00 МСК
▫️
Подключение→Выступает: Егор Дудырев (НИУ ВШЭ, Университет Лотарингии)
Тема: Кластеризация на правилах или как найти кластеризации, которые легко объяснить
Аннотация
В этом докладе мы рассмотрим пайплайн кластеризации на правилах, где каждый кластер задаётся простым, легко читаем условием. В случае с числовыми данными, такие условия будут выглядеть как: "объект x находится в кластере y если значение его 1-го признака x1 лежит в интервале [a, b], а значение десятого признака x10 – в интервале [c, d]".
Предложенный пайплайн ставится в противовес к "традиционному" подходу к кластеризации – где всё внимание уделяется расстоянию между объектами из разных кластеров. Из-за чего появляются кластера, которые трудно интерпретировать. Ведь даже чтобы объяснить, почему объект х лежит в кластере y, нужно нужно сначала посчитать расстояние в многомерном (часто, масштабированном) пространстве между x и всеми кластерами.
Семинар будет построен на основе статьи
"Clustering with Stable Pattern Concepts" (предварительная публикация) представленной на воркшопе FCA4AI проходившем в рамках Европейской Конференции по ИИ (ECAI) в октябре 2024 года.
Мы рассмотрим пайплайн состоящий из трёх шагов:
1. как найти хорошие "стабильные" паттерны в данных, которые могут использованы в качестве описаний кластеров;
2. как объединить отдельные кластеры в кластеризации: т.е. как скомбинировать кластеры так, чтобы они покрывали (почти) все данные и при этом (почти) не пересекались;
3. и как из множества найденных кластеризаций выбрать одну наилучшую.
Вторая часть доклада будет посвящена обсуждению алгоритма комбинирования кластеров из шага 2: этот алгоритм получился довольно простым, при этом он содержит множество техник, эффективных для решения комбинаторных задач на бинарных данных.
Уровень сложности: продвинутый, для понимания доклада необходимо базовое представления о задаче кластеризации. В ходе доклада будут использованы термины из областей Frequent Itemset Mining и Subgroup Discovery, поэтому знакомство с этими областями может помочь, но совсем не обязательно. Наконец, рассматриваемый алгоритм является оптимизированной версией обхода графа в ширину, так что он будет полезен людям, знающим базу теории графов.
Ключевые слова: Clustering, Formal Concept Analysis, Pattern Structures, Rare Itemset Mining.