Состоит из:
Курс по статистике Института биоинформатики.
Основы статистики
basic_stat/конспект.ipynb at main · KlukvaMors/basic_stat
Анализ данных в R
Content
Генеральная совокупность и выборка
- Генеральная совокупность (от лат. generis — общий, родовой) — совокупность всех объектов, относительно которых предполагается делать выводы при изучении конкретной задачи. Далее ГС.
- Выборка – часть генеральной совокупности, на которой проводим исследование.
- Репрезентативная выборка – это такая выборка, в которой все основные признаки генеральной совокупности, из которой извлечена данная выборка, представлены приблизительно в той же пропорции или с той же частотой, с которой данный признак выступает в этой генеральной совокупности.
Способы создания репрезентативной выборки:
- Простая случайная выборка (simple random sample)
- Стратифицированная выборка (stratified sample) – разделение ГС на страты (группы) а оттуда уже делается случайная выборка.
- Групповая выборка (cluster sample) – похожие группы выбираются из выборки и далее делается случайная выборка (например, районы одного города)
Способы создания выборок
- Вероятностные выборки:
- случайные — просто случайно берем
- систематические — сортируем, но не группируем, а потом из групп берем элементы, например каждый пятнадцатый. Пример: призыв в США.
- стратифицированная выборка. Мы знаем какие у меня группы. И сбалансируем нашу выборку группами. Пример: если мы изучаем соцсети. И знаем что в городе половина пенсионеров. Тогда в выборке должна быть половина пенсионеров.
- кластерные выборки — совокупность состоит из кластеров, которые не пересекаются (например города в стране, когда хотим узнать среднюю зп в стране). Случайно выбираем кластеры, которые мы хотим изучать. А потом в кластерах выбираем объекты (выбираем сначала три города, а потом опраишваем людей в них).
- Невероятностые выборки (детерминированные) связаны с субъективными критериями:
- квотная выборка — кластер выбираем случайно, а потом не случайно выбираем в нём объекты (город выбрали случайно, а потом выбрали людей ростом выше 180 см).
- снежным ком — группа очень редкая и маленькая (коллекционеры редких монет, знаем только одного человека, и через него выходим на остальных опрошенных).
- стихийная выборка — легок в реализации, дешевый (чатик в телеге, гугл форма — рассылка там опросов).
- выбор типичных случаев — выбираем например людей только со средним ростом, когда анализируем продажи в магазине.
Типы данных и переменных