Можно ли кластеризовать данные с сгруппированными строками данных в процессе обучения без учителя?

Я работаю над настройкой данных для алгоритма обучения без присмотра. Целью проекта является объединение (кластеризация) разных клиентов в зависимости от их поведения на веб-сайте. Очевидно, что какой-то алгоритм кластеризации лучше всего подходит для обнаружения закономерностей в данных, которые мы не можем видеть как люди.

Однако база данных содержит несколько строк для каждого клиента (в хронологическом порядке) для каждого действия, которое клиент предпринял на веб-сайте для этого посещения. Например, клиент с идентификатором # 123 щелкнул по странице 1 во время X, и это будет строка в базе данных, а затем тот же клиент щелкнул по другой странице во время Y. Это создаст еще одну строку в базе данных.

Мой вопрос: какой алгоритм или подход вы бы использовали для кластеризации в данном сценарии? K-средства действительно популярны для такого типа проблем, но я не знаю, возможно ли использовать в этой ситуации из-за группировки. Возможно ли как-то выполнить кластерный анализ вокруг одного конкретного идентификатора, который включает в себя несколько строк?

Любая помощь / направление обучения без присмотра, которое я должен взять, приветствуется.

Всего 1 ответ


Короче,

  1. Изучите вложение (представление) фиксированной длины каждого события;
  2. Узнайте, как объединить последовательность таких вложений в одно представление для каждого события, а затем используйте ваши любимые неконтролируемые методы.

Для (1) вы можете сделать это либо вручную, либо использовать кодер / декодер; Для (2) есть ряд вещей, которые вы можете сделать, начиная от простого усреднения вложений из каждого события, до обучения кодера-декодера восстановлению исходной последовательности событий и принятию промежуточного представления (которое декодер использует для восстановления оригинальная последовательность).

Хорошее чтение по этой теме (хотя и немного старое; теперь у вас также есть опция Transformer Network ):

Представления для языка: от вложения слов до значений предложений