Могу ли я заменить 'make_blobs' определенным набором данных?

Я нашел очень полезный код для итеративного тестирования нескольких алгоритмов кластеризации. Пример кода работает отлично. Мне интересно, могу ли я изменить одну строку кода, чтобы вставить в мой фактический набор данных.

From:
    blobs = datasets.make_blobs(n_samples=n_samples, random_state=8)

To:
    blobs = myowndataset

Итак, myowndataset содержит некоторые категориальные данные, а также числовые данные. Я легко могу горячо закодировать категорические данные. Мне просто интересно, возможно ли это сделать. В примере кода все числовое. Кроме того, 'datasets.make_blobs' выглядит так, как будто он состоит из двух массивов: X и y. Это так работает?

Код приходит отсюда.

https://scikit-learn.org/0.18/auto_examples/cluster/plot_cluster_comparison.html

Всего 1 ответ


Вы должны найти часть папки, в которой для вас сохранены наборы данных, для меня это было что-то вроде: C:Users...scikit_learn_data , если он имеет такой же формат, вы можете сохранить его там и загрузить, чтобы сохранить та же структура кода. Это также работает, если вы не можете получить доступ к наборам данных непосредственно из Интернета.

Другой вариант - переписать ваш код и использовать обычные библиотеки pandas pd.read_csv чтобы загрузить ваши данные и привести их в нужный формат.


Есть идеи?

10000