Руководство по подготовке к Data science интервью [Ренат Алимбеков] (pdf) читать постранично

-  Руководство по подготовке к Data science интервью  5.75 Мб, 44с. скачать: (pdf) - (pdf+fbd)  читать: (полностью) - (постранично) - Ренат Алимбеков

Книга в формате pdf! Изображения и текст могут не отображаться!


 [Настройки текста]  [Cбросить фильтры]

РУКОВОДСТВО
ПО ПОДГОТОВКЕ К
DATA SCIENCE ИНТЕРВЬЮ
Автор
Ренат Алимбеков

Первое издание
2021

Статистика и теория вероятности
Что такое центральная предельная теорема? Объясните ее. Почему она важна?
Центральная предельная теорема гласит, что выборочное распределение выборочного среднего
приближается к нормальному распределению по мере того, как размер выборки увеличивается,
независимо от формы распределения генеральной совокупности
Центральная предельная теорема важна, потому что она используется при проверке гипотез, а
также для вычисления доверительных интервалов.

Что такое статистическая мощность?
Статистическая мощность - вероятность отклонения основной (или нулевой) гипотезы
при проверке статистических гипотез в случае, когда конкурирующая (или альтернативная)
гипотеза верна.

Как поступать с отсутствующими данными? Какие методы вы рекомендуете?
Есть несколько способов исправить недостающие данные:






Удалить строки с отсутствующими данными
Среднее / Медиана / Мода
Присвоение уникального значения
Прогнозирование недостающих значений
Использование алгоритма, поддерживающего
случайный лес

пропущенные

значения,

например

Наилучшим методом является удаление строк с отсутствующими данными, поскольку это
гарантирует, что смещение или отклонение не будет добавлено или удалено, и в конечном итоге
приведет к созданию надежной и точной модели. Однако это можно рекомендовать только в том
случае, если есть достаточно данных и процент пропущенных значений невелик.

Распределения
Нормальное распределение
Нормальное распределение, также известное как распределение Гаусса. Нормальное
распределение, вероятно, является самым популярным распределением вероятностей. Это
непрерывное распределение в форме колокола, симметричное среднему значению. Функция
плотности вероятности для нормального распределения выглядит следующим образом:

где μ - среднее значение, а σ - стандартное отклонение распределения.
Среднее значение (μ): Среднее значение всех точек в сэмпле.
Стандартное отклонение (σ): насколько набор данных отклоняется от среднего значения
выборки.
Некоторые характерные особенности нормального распределения заключаются в следующем:
1.
2.

3.
4.
5.
6.
7.

Оно симметрично относительно среднего.
Оно следует колоколообразной кривой. Каждая кривая колокола не обязательно должна
быть нормальным распределением, но каждое нормальное распределение является
кривой колокола.
Среднее значение, медиана и моды равны.
Общая площадь под кривой равна 1.
68,26% данных находится в пределах одного стандартного отклонения от среднего.
95,44% данных находится между двумя стандартными отклонениями среднего.
99,73% данных лежат между тремя стандартными отклонениями среднего.

Нормальное распределение получает свою важность из Центральной предельной теоремы,
которая гласит, что если мы возьмем достаточно большое количество выборок, их среднее будет
следовать нормальному распределению независимо от начального распределения выборки, то
есть распределения среднего значения выборок нормально. Важно, чтобы каждый сэмпл не
зависел от другого.
Позвольте представить новую переменную с именем z. Z - разница между каждым элементом
данных и средним значением, деленное на стандартное отклонение. Формула:

Интересная особенность z заключается в том, что:
E(z) = 0 (Expected value = 0)
V(Z) = 1 (Variance =1)
Процесс преобразования значений в столбце в соответствующие им значения z называется
стандартизацией. Кроме того, в данных, которые следует нормальному распределению, даже
значения z подчиняются нормальному распределению. Итак, мы можем сказать, что когда, X ~ N
(mu, sigma²), это означает, что следуют соответствующие значения z, Z ~ N (0,1²).

Как мы проверяем, соответствует ли переменная нормальному распределению?
1.

2.

3.
4.

Постройте гистограмму из выборочных данных. Если вы можете подогнать
колоколообразную «нормальную» кривую к гистограмме, то гипотезу о том, что основная
случайная величина следует нормальному распределению, нельзя отвергнуть.
Проверьте Skewness и Kurtosis выборочных данных. Skewness = 0 и Kurtosis = 3 типичны
для нормального распределения, поэтому, чем дальше они от этих значений, тем более
ненормальное распределение.
Используйте тесты Колмогорова-Смирнова и / или Шапиро-Уилка на нормальность. Они
одновременно учитывают асимметрию и эксцесс.
Проверьте график квантиля-квантиля. Это диаграмма рассеяния, созданная путем
сопоставления двух наборов квантилей друг с другом. На нормальном графике Q-Q точки
данных располагаются примерно по прямой линии.

Что такое стандартное нормальное распределение?
Да, это так просто, как и кажется. Это стандартизация («освобождение данных от ограничений
какой-либо шкалы») нормального распределения со