70K Method

Best Binary Options Brokers 2020:
  • BINARIUM
    BINARIUM

    The Best Binary Options Broker 2020!
    Perfect For Beginners and Middle-Leveled Traders!
    Free Education.
    Free Demo Account.
    Get Your Sign-Up Bonus Now!

  • BINOMO
    BINOMO

    Recommended Only For Experienced Traders!

Метод k-средних

Продолжаем описывать популярные алгоритмы из data mining, сегодня остановимся на методе к-средних (k-means).

Метод к-средних создает к-групп из набора объектов таким образом, чтобы члены группы были наиболее однородными. Это популярная техника кластерного анализа для исследования набора данных.

А что такое кластерный анализ? Кластерный анализ – это семейство алгоритмов, разработанных для формирования групп таким образом, чтобы члены группы были наиболее похожими друг на друга и не похожими на элементы, не выходящие в группу. Кластер и группа – это синонимы в мире кластерного анализа.

Есть какой-нибудь пример? Определенно. Предположим, что у нас есть данные о пациентах. В кластерном анализе это называется наблюдениями. Мы кое-что знаем о каждом пациенте, например, его возраст, пульс, кровяное давление, максимальное потребление кислорода, холестерин и так далее. Это вектор, представляющий пациента.

Вы можете думать об этом векторе как о списке чисел, который может быть интерпретирован в виде координатов многомерного пространства. Пульс в одном измерении, кровяное давление – в другом и так далее.

Может возникнуть вопрос:

Как нам сгруппировать вместе пациентов по возрасту, пульсу, давлению с помощью этих векторов?
Хотите узнать хорошую новость?

Вы говорите методу к-средних, сколько кластеров вам нужно, а он сделает все остальное.

Как это происходит? Метод к-средних имеет множество вариантов работы для различных типов данных.

В общем случае все они делают примерно следующее:

  1. Метод к-средних выбирает точки многомерного пространства, которые будут представлять к-кластеры. Эти точки называются центрами тяжести.
  2. Каждый пациент будет располагаться наиболее близко к одной из точек. Надеемся, что не все они будут стремиться к одному центру тяжести, поэтому образуется несколько кластеров.
  3. Теперь у нас есть к-кластеров, и каждый пациент – это член какого-то из них.
  4. Метод к-средних, учитывая положение членов кластера, находит центр каждого из к-кластеров (именно здесь используются векторы пациентов!).
  5. Вычисленный центр становится новым центром тяжести кластера.
  6. Поскольку центр тяжести переместился, пациенты могли оказаться ближе к другим центрам тяжести. Другими словами, они могли сменить членство.
  7. Шаги 2-6 повторяются до тех пор, пока центр тяжести не перестанут изменяться и членство не стабилизируется. Это называется сходимостью.

Требует ли этот метод обучения или он самообучающийся? Бывает по-разному. Но большинство расценивает метод к-средних как самообучающийся. Вместо того, чтобы уточнять количество кластеров, метод к-средних «изучает» кластеры самостоятельно, не требуя информации о том, к какому кластеру относятся данные наблюдения. Метод к-средних может быть полуобучаемым.

Best Binary Options Brokers 2020:
  • BINARIUM
    BINARIUM

    The Best Binary Options Broker 2020!
    Perfect For Beginners and Middle-Leveled Traders!
    Free Education.
    Free Demo Account.
    Get Your Sign-Up Bonus Now!

  • BINOMO
    BINOMO

    Recommended Only For Experienced Traders!

Почему стоит использовать метод к-средних? Не думаю, что многие возьмутся спорить:

Основным достоинством алгоритма является его простота. Простота обычно означает высокую скорость выполнения и эффективность по сравнению с другими алгоритмами, в особенности при работе с крупными наборами данных.

Метод к-средних может использоваться для предварительного разбиения на группы большого набора данных, после которого проводится более мощный кластерный анализ подкластеров. Метод к-средних может использоваться, чтобы «прикинуть» количество кластеров и проверить наличие неучтенных данных и связей в наборах.

Но не все так гладко:

Два основных недостатка метода к-средних заключаются в чувствительности к «выбросам» и начальному выбору центров тяжести. Также нужно помнить, что метод к-средних создан для работы с непрерывными значениями, поэтому придется проделать пару фокусов, чтобы заставить алгоритм работать с дискретными данными.

Где он используется? Огромное количество реализаций метода к-средних доступны онлайн:

70K Method

Feed The topics in Internet Marketing that you should be reading right now

New Threads with the newest replies

Top Threads voted as the best by the Warrior Forum Community

Exclusive products and services available only at Warrior Forum

Get great deals on Internet Marketing Products, Services, Trainings and other Offers at the world’s largest Internet marketing marketplace

70K Method

Данный файл также доступен в разделе “лабораторные работы”, в предмете “физика” в общих файлах.

  • К70
  • 20200108_234211.jpg 1,46 Mb
  • 20200108_234219.jpg 1,92 Mb
  • 20200108_234230.jpg 1,29 Mb
  • 20200108_234242.jpg 1,31 Mb
  • k70.pdf 1,01 Mb

Распознанный текст из изображения:

Поделитесь ссылкой пожалуйста:
Похожие файлы
Ювелирные изделия Красного села
Психологические типы по Юнгу
Лицензирование в туризме
Свободные экономические зоны
Гражданский иск в суде РФ
Надоела реклама? VIP-пользователи её не видят вообще! Зарегистрированные пользователи не видят видео-рекламу.
  • Статьи
  • Новости
  • Бесплатные программы
  • Советы студенту
  • Экономия
  • Льготы и преимущества
  • Новости ВУЗов
  • Разное
  • Разделы
  • ВУЗы
  • Общие файлы
  • Лекции
  • Правила сайта
  • FAQ
  • Правообладателям
  • Ответы на тесты
  • Теги
  • Статистика
  • Мобильная версия
  • Архив
  • Термины
  • Нано-блог
  • Обзоры
  • Статьи
  • Задачи
  • Карта задач
  • Досье на преподавателей
  • Файловый архив
  • Учебные материалы
  • К экзамену/зачёту
  • Книги и методические указания
  • Контрольные работы и аттестации
  • Курсовые/домашние работы
  • Лабораторные работы
  • Лекции и семинары
  • Рефераты, доклады и презентации
  • Диссертации
  • Остальное

Для добавления файла нужно быть зарегистрированным пользователем. Зарегистрироваться и авторизоваться можно моментально через социальную сеть “ВКонтакте” по кнопке ниже:

Вы можете зарегистрироваться стандартным методом и авторизоваться по логину и паролю с помощью формы слева.

Не забывайте, что на публикации файлов можно заработать.

70K Method

После создания кластерного решения обычно возникает вопрос, насколько оно устойчиво и статистически значимо. Здесь существует эмпирическое правило – устойчивая группировка должна сохраняться при изменении методов кластеризации: например, если результаты иерархического кластерного анализа имеют долю совпадений более 70% с группировкой по методу \(k\) средних, то предположение об устойчивости принимается.

В теоретическом плане проблема проверки адекватности кластеризации не решена, по крайней мере, без использования другого вида анализа или априорного знания принадлежности объектов к соответствующим классам. Авторы сборника Ким и др. (1989, с. 192 и далее) подробно рассматривают и в итоге отвергают пять методов проверки адекватности кластеризации (ru.wikipedia.org):

  1. Кофенетическая корреляция – не рекомендуется и ограниченна в использовании;
  2. Тесты на значимость разбиения данных на кластеры (многомерный дисперсионный анализ) – всегда дают значимый результат;
  3. Методика повторных (случайных) выборок – не доказывает обоснованность решения;
  4. Тесты значимости для признаков, не использованных при кластеризации, – пригодны только при наличии повторных измерений;
  5. Методы Монте-Карло очень сложны и доступны только опытным математикам.

С тех пор в литературе предложено множество методов и критериев оценки качества результатов кластеризации (clustering validation). Можно выделить несколько подходов к валидации 11 кластеров (Kassambara, 2020):

  • внешняя валидация, которая заключается в сравнении итогов кластерного анализа с заранее известным результатом (т.е. метки кластеров известны априори);
  • относительная валидация, которая оценивает структуру кластеров, изменяя различные параметры одного и того же алгоритма (например, число групп \(k\) );
  • внутренняя валидация, которая использует внутреннюю информацию процесса объединения в кластеры (если внешняя информация отсутствует);
  • оценка стабильности объединения в кластеры (или специальная версия внутренней валидации), использующая методы ресэмплинга.

Одна из проблем машинного обучения без учителя состоит в том, что методы кластеризации будут формировать группы, даже если анализируемый набор данных представляет собой полностью случайную структуру. Поэтому первой задачей валидации, которую рекомендуется выполнить перед началом кластерного анализа, является оценка общей предрасположенности имеющихся данных к объединению в кластеры (clustering tendency).

Статистика Хопкинса (Hopkins) является одним из индикаторов тенденции к группированию. Для ее расчета создается B псевдо-наборов данных, сгенерированных случайным образом на основе распределения с тем же стандартным отклонением, что и оригинальный набор данных. Для каждого наблюдения \(i\) из \(n\) рассчитывается среднее расстояние до \(k\) ближайших соседей: \(w_i\) между реальными объектами и \(q_i\) между искусственными объектами и их самыми близкими реальными соседями. Тогда статистика Хопкинса

превышающая 0.5, будет соответствовать нулевой гипотезе о том, что \(q_i\) и \(w_i\) подобны, а группируемые объекты распределены случайно и однородно. Величина \(H_ на 90%-нном уровне уверенности указывает на имеющуюся тенденцию к группированию данных.

Весьма полезна также визуальная оценка тенденции (VAT, Visual Assessment of cluster Tendency): потенциальные группы представлены темными квадратами вдоль главной диагонали “VAT-диаграммы”. Функция get_clust_tendency() из пакета factoextra попутно с графиком рассчитывает также и статистику Хопкинса:

Рисунок 10.10: Корреляция между кластеризациями на основе разных методов

В случае криминогенности штатов США мы имеем весьма умеренную склонность к образованию групп. В разделе 10.1 мы рассмотрели три метода выбора оптимального числа кластеров, которые не всегда давали однозначные оценки. “Но это еще не все…”. С помощью пакета NbClust можно найти оптимальную схему объединения в кластеры, используя ни много ни мало целых 30 индексов качества! При этом происходит перебор различных комбинаций числа групп, метрик дистанции и методов кластеризации:

Рисунок 10.11: Оптимальное число кластеров по оценкам различных индексов

Разброс оценок числа классов наилучшего разбиения весьма велик: от 2 по индексу МакКлайна до 8 по индексу Данна, поэтому приходится прибегать к тривиальному голосованию.

Кофенетическую корреляцию можно также рассчитать между исходной матрицей дистанции и матрицей кофенетических расстояний, и тогда она может служить мерой адекватности кластерного решения исходным данным. Оценим по этому показателю пять иерархических кластеризаций, сравниваемых между собой в предыдущем разделе (Borcard et al., 2020):

Таким образом, максимальное значение коэффициента W матричной корреляции Мантеля (а, следовательно, и наибольшая адекватность матрице расстояний, построенной по исходным данным) принадлежит кластеризации по методу средней связи. Нелишне заметить, что все рассмотренные кластеризации статистически значимы, т.е. не могут быть объяснены случайными причинами (впрочем, такое будет почти всегда). Наконец, Ким и др. (1989) не рекомендуют использовать кофенетическую корреляцию в основном по причине несоответствия кофенетических расстояний нормальному распределению. Можно, однако, привести массу аргументов, показывающих откровенную слабость этих утверждений.

После того, как мы попытались оценить, насколько хорошо топология дендрограммы отображает предрасположенность объектов к группированию, остаются некоторые вопросы, вызывающие несомненный интерес. Можно ли вычислить \(p\) -значения в целом для полученной иерархической кластеризации? Какие фрагменты древовидной структуры являются “слабым звеном” в полученной конструкции?

Однако правомерен и контрвопрос: “Нужно ли вычислять эти \(р\) -значения?” Как убедительно сказано в книге Джеймс и др. (2020), не существует правильных или неправильных результатов кластеризации, поскольку, по определению, это метод обучения без учителя. Все определяется соответствием полученного решения поставленной задаче, которая на практике в большинстве случаев сводится просто к тому, чтобы приблизительно оценить, на сколько групп целесообразно разделить данные. При этом степень этого соответствия всегда будет субъективной.

Ответ на второй вопрос об устойчивости фрагментов кластерной структуры состоит в том, чтобы взять из исходной таблицы множество повторных выборок, построить для каждой из них свою дендрограмму и вычислить частоту встречаемости каждого фрагмента в сформированной последовательности разбиений. Разумеется, здесь невозможно обойтись без бутстрепа, позволяющего подсчитать вероятность BP (Bootstrap Probability) встречаемости произвольного узла в бутстреп-копиях. Обычно фрагменты древовидной структуры считаются статистически значимыми, если с ветвями дерева связывается бутстреп-вероятность, превышающая 70-80%.

Х. Шимодейра (Shimodaira, 2002), сравнивая центры распределения исходной и бутстреп-выборок, показал, что величина BP является приближенной оценкой вероятности появления узла в дереве. Несмещенную оценку вероятности AU (Approximately Unbiased) можно получить, выполнив повторную серию бутстрепа в различных масштабах (multiscale bootstrap resampling). Для этого отдельно вычисляют BP-значения, формируя бутстреп-выборки разного объема: например, \(0.5n, 0.6n, \dots, 1.4n, 1.5n\) , где \(n\) – объем исходной выборки. Несмещенная бутстреп-вероятность AU находится аппроксимацией ряда полученных значений BP. Оптимальные оценки AU для каждого кластера дендрограммы, найденные путем подбора параметрических моделей с использованием метода максимального правдоподобия, могут быть получены с использованием пакетов pvclust и scaleboot для R.

Некоторая проблема заключается в том, что функция pvclust() , ориентированная на генетические исследования, выполняет кластеризацию признаков (т.е. столбцов таблицы данных), а для 4 показателей нашей демонстрационной таблицы USArrests это особого интереса не представляет. Если попробовать выполнить анализ с транспонированной матрицей \(4 \times 60\) , выполнив команду pvclust(t(USArrests)) , то решение найти нельзя из-за проблем с сингулярными преобразованиями:

Воспользуемся тогда в качестве примера набором Boston из пакета MASS , включающим 14 признаков привлекательности 506 участков города для проживания (рис. 10.12):

Рисунок 10.12: Дендрограмма с нанесенными значениями AU/BP для каждого узла

Этот пример показывает, что с практической точки зрения кластеризация признаков (переменных) может быть столь же важна, как и группировка объектов. Использование коэффициентов корреляции для расчета матрицы дистанций method.dist = “cor” избавляет нас от необходимости стандартизовать данные.

При анализе дендрограммы на рис. 10.12 можно увидеть, что признаки иногда образуют кластеры с ясно интерпретируемой зависимостью (“среднее число комнат в жилье rm ” и “медианная стоимость дома medv ”), но часто их тесная связь нуждается в дополнительном осмыслении (“индекс доступности к кольцевым дорогам rad ” и “сумма налога на недвижимость tax ”, или “доля участков, продаваемых в розницу indus ” и “концентрация окислов азота nox ”). В целом была получена весьма стабильная кластеризация: наименее низкую бутстреп-вероятность имеют такие важнейшие признаки, как “криминальный индекс crim ” и “процент жителей с низким социальным статусом lstat ”, которые вполне могут объединиться в группу с любым другим из имеющихся показателей (например, “долей афроамериканцев black ”).

Мы используем термин “валидность”, чтобы избегнуть некоторой двусмысленности таких понятий как “адекватность”, “эффективность”, “значимость”.↩

Best Binary Options Brokers 2020:
  • BINARIUM
    BINARIUM

    The Best Binary Options Broker 2020!
    Perfect For Beginners and Middle-Leveled Traders!
    Free Education.
    Free Demo Account.
    Get Your Sign-Up Bonus Now!

  • BINOMO
    BINOMO

    Recommended Only For Experienced Traders!

Like this post? Please share to your friends:
Binary Options Brokers, Signals and Strategies
Leave a Reply

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: