stringtranslate.com

Дисплей стебля и листа

Диаграмма «стебель и листья» простых чисел до 100 показывает, что наиболее часто встречающиеся цифры десятков — 0 и 1, а наименее часто встречающаяся — 9.

Дисплей «стебель и листья» или диаграмма «стебель и листья» — это устройство для представления количественных данных в графическом формате, похожем на гистограмму , для визуализации формы распределения . Они произошли от работ Артура Боули в начале 1900- х годов и являются полезными инструментами в разведочном анализе данных . Стемплоты стали более широко использоваться в 1980-х годах после публикации книги Джона Тьюки об разведочном анализе данных в 1977 году. [1] Популярность в те годы объясняется использованием ими моноширинных (пишущих) шрифтов, что позволяло компьютерным технологиям того времени легко создавать графику. Превосходные графические возможности современных компьютеров означают, что эти методы используются реже.

Этот график был реализован в Octave [2] и R. [3]

Диаграмма «стебель-и-листья» также называется stemplot , но последний термин часто относится к другому типу диаграммы. Простая диаграмма «стебель» может относиться к построению матрицы значений y на общей оси x и обозначению общего значения x вертикальной линией, а индивидуальных значений y — символами на линии. [4]

В отличие от гистограмм, отображения «стебель и листья» сохраняют исходные данные с точностью не менее двух значащих цифр и упорядочивают данные, тем самым облегчая переход к выводам на основе порядка и непараметрической статистике .

Строительство

Чтобы построить отображение стебля и листьев, наблюдения должны быть сначала отсортированы в порядке возрастания: это можно сделать проще всего, работая вручную, построив черновик отображения стебля и листьев с несортированными листьями, а затем отсортировав листья для получения окончательного отображения стебля и листьев. Вот отсортированный набор значений данных, который будет использоваться в следующем примере:

44, 46, 47, 49, 63, 64, 66, 68, 68, 72, 72, 75, 76, 81, 84, 88, 106.

Далее необходимо определить, что будут представлять стебли и что будут представлять листья. Обычно лист содержит последнюю цифру числа, а стебель содержит все остальные цифры. В случае очень больших чисел значения данных могут быть округлены до определенного разряда (например, разряда сотен), который будет использоваться для листьев. Оставшиеся цифры слева от округленного разряда используются в качестве стебля.

В этом примере лист представляет разряд единиц, а стебель будет представлять остальную часть числа (разряд десятков и выше).

Дисплей стебля и листа рисуется с двумя столбцами, разделенными вертикальной линией. Стебли перечислены слева от вертикальной линии. Важно, чтобы каждый стебель был перечислен только один раз и чтобы не было пропущено ни одного числа, даже если это означает, что некоторые стебли не имеют листьев. Листья перечислены в порядке возрастания в строке справа от каждого стебля.

Если в данных есть повторяющееся число (например, два числа 72), график должен это отражать (то есть график будет выглядеть как 7 | 2 2 5 6 7, если в нем есть числа 72 72 75 76 77).

Ключ:
Листовая единица: 1.0
Шток: 10.0

Округление может потребоваться для создания отображения стебля и листьев. На основе следующего набора данных будет создан следующий график стебля:

-23,678758, -12,45, -3,4, 4,43, 5,5, 5,678, 16,87, 24,7, 56,8

Для отрицательных чисел перед единицей ствола ставится знак минус, который по-прежнему равен значению X / 10. Нецелые числа округляются. Это позволяет графику ствола и листьев сохранять свою форму даже для более сложных наборов данных. Как в этом примере ниже:

Ключ:

Использование

Дисплеи «стебель и листья» полезны для отображения относительной плотности и формы данных, предоставляя читателю быстрый обзор распределения. Они сохраняют (большую часть) необработанных числовых данных, часто с идеальной целостностью. Они также полезны для выделения выбросов и поиска моды . Однако дисплеи «стебель и листья» полезны только для наборов данных среднего размера (около 15–150 точек данных). С очень маленькими наборами данных дисплеи «стебель и листья» могут быть малополезны, так как для установления окончательных свойств распределения требуется разумное количество точек данных. Точечный график может лучше подходить для таких данных. С очень большими наборами данных отображение «стебель и листья» станет очень загроможденным, так как каждая точка данных должна быть представлена ​​численно. Диаграмма ящиков или гистограмма могут стать более подходящими по мере увеличения размера данных.

Нечисловое использование

а│абдегхилмнрсвксиб│аейойс│чд│аеиоe│adefhlmnrstwxфуг│иоуh│aeimoи│дфностьj│aoк│айойл│айом│эймуйнето│бдефхикмнопрсувхыp│aeioq│iр│еш│хитт│аеиоу│гхмнпрств│w│eoх│иуy│aeouz│aeo

Стебель-и-листья также могут использоваться для передачи нечисловой информации. В этом примере допустимых двухбуквенных слов в Collins Scrabble Words (список слов, используемый в турнирах по Scrabble за пределами США) с их инициалами в качестве основ, можно легко увидеть, что три наиболее распространенных инициала — это o , a и e . [5]

Примечания

  1. ^ Tukey, John W. (1977). Exploratory Data Analysis (1-е изд.). Pearson. ISBN 0-201-07616-0.
  2. ^ Функция в октаве
  3. ^ Функция в R
  4. ^ Примеры: функции стебля MATLAB и Matplotlib. Они не создают отображение стебля и листьев.
  5. ^ Гидеон Голдин, Двухбуквенные слова в игре «Скрэббл», визуализированные в виде стебля и листа, 01.10.2020

Ссылки