stringtranslate.com

Стата

Stata ( / ˈ s t t ə / , [2] STAY -ta , альтернативно / ˈ s t æ t ə / , иногда стилизуемый как STATA [3] [4] ) — пакет статистического программного обеспечения общего назначения, разработанный StataCorp. для манипулирования данными, визуализации, статистики и автоматизированной отчетности. Он используется исследователями во многих областях, включая биомедицину , экономику , эпидемиологию и социологию . [5]

Первоначально Stata была разработана Центром вычислительных ресурсов в Калифорнии, а первая версия была выпущена в 1985 году. [6] В 1993 году компания переехала в Колледж-Стейшн, штат Техас, и была переименована в Stata Corporation, теперь известную как StataCorp. [1] Основной выпуск 2003 года включал новую графическую систему и диалоговые окна для всех команд. [6] С тех пор новая версия выпускается раз в два года. [7] Текущая версия — Stata 18, выпущенная в апреле 2023 года. [8]

Технический обзор и терминология

Пользовательский интерфейс

С момента своего создания Stata всегда использовала интегрированный интерфейс командной строки. Начиная с версии 8.0, Stata включает графический пользовательский интерфейс , основанный на платформе Qt , который использует меню и диалоговые окна для предоставления доступа ко многим встроенным командам. Набор данных можно просматривать или редактировать в формате электронной таблицы. Начиная с версии 11, другие команды можно выполнять, пока открыт браузер или редактор данных.

Структура и хранение данных

До выпуска версии 16 [9] Stata могла одновременно открывать только один набор данных . Stata обеспечивает гибкость при назначении типов данных. Его compressкоманда автоматически переназначает данные типам данных, которые занимают меньше памяти, без потери информации. Stata использует целочисленные типы хранения, которые занимают только один или два байта, а не четыре, а для чисел с плавающей запятой по умолчанию используется одинарная точность (4 байта), а не двойная точность (8 байтов) .

Формат данных Stata всегда табличный . Stata называет столбцы табличных данных переменными.

Совместимость форматов данных

Stata может импортировать данные в различных форматах. Сюда входят форматы данных ASCII (например, CSV или форматы банков данных ) и форматы электронных таблиц (включая различные форматы Excel ).

Собственные форматы файлов Stata со временем изменились, хотя не каждая версия Stata включает новый формат набора данных. Каждая версия Stata может читать все старые форматы наборов данных и записывать как текущий, так и самый последний предыдущий формат набора данных с помощью этой saveoldкоманды. [10] Таким образом, текущая версия Stata всегда может открывать наборы данных, созданные в более старых версиях, но более старые версии не могут читать наборы данных нового формата.

Stata может читать и записывать наборы данных в формате SAS XPORT, используя команды fdause и fdasave .

Некоторые другие эконометрические приложения, включая gretl , могут напрямую импортировать форматы файлов Stata.

История

Происхождение

Разработка Stata началась в 1984 году сначала Уильямом (Биллом) Гулдом, а затем Шоном Беккетти. Программное обеспечение изначально предназначалось для конкуренции со статистическими программами для персональных компьютеров, такими как SYSTAT и MicroTSP . [6] Stata была написана тогда, как и сейчас, на языке программирования C , первоначально для ПК под управлением операционной системы DOS . Первая версия была выпущена в 1985 году и содержала 44 команды. [6]

Разработка

В период с 1985 по 2021 год было выпущено 17 основных выпусков Stata, а также дополнительные обновления кода и документации между основными выпусками. [7] В первые годы существования дополнительные наборы программ Stata иногда продавались как «наборы» или распространялись как диски поддержки. С выпуском Stata 6 в 1999 году updateданные стали доставляться пользователям через Интернет. [6] Первоначальная версия Stata была для операционной системы DOS . С тех пор были выпущены версии Stata для систем, работающих под управлением вариантов Unix , таких как дистрибутивы Linux , Windows и MacOS . [6] Все файлы Stata не зависят от платформы.

За 37-летнюю историю Stata были добавлены сотни команд. [11] [12] Некоторые разработки оказались особенно важными и продолжают формировать пользовательский опыт сегодня, включая расширяемость , независимость от платформы и активное сообщество пользователей . [6]

Расширяемость

Команда programбыла реализована в Stata 1.2, что дало пользователям возможность добавлять свои собственные команды. [6] [13] ado-файлы, используемые в Stata 2.1, позволяют автоматически загружать написанную пользователем программу в память. Многие написанные пользователями ADO-файлы передаются в «Архив компонентов статистического программного обеспечения», размещенный в Бостонском колледже. StataCorp добавила sscкоманду, позволяющую добавлять программы, созданные сообществом, непосредственно в Stata. [14] Более поздние выпуски Stata позволяют пользователям вызывать сценарии Python с помощью команд, а также позволяют средам разработки Python, таким как Jupyter Notebooks, импортировать команды Stata. [15] Хотя Stata изначально не поддерживает R, существуют написанные пользователем расширения для использования сценариев R в Stata. [16]

Сообщество пользователей

Ряд важных разработок был инициирован активным сообществом пользователей Stata. [6] Технический бюллетень Stata , который часто содержит команды, созданные пользователями, был представлен в 1991 году и выпускался шесть раз в год. Он был перезапущен в 2001 году как рецензируемый журнал Stata Journal , ежеквартальное издание, содержащее описания команд, предоставленных сообществом, и советы по эффективному использованию Stata. В 1994 году рассылка зародилась как центр, где пользователи могли совместно решать программные и технические проблемы; в 2014 году он был преобразован в веб-форум. В 1995 году Statacorp начала организовывать конференции пользователей и разработчиков, которые проводятся ежегодно. Только ежегодная конференция Stata, проводимая в Соединенных Штатах, проводится StataCorp. Другие встречи групп пользователей проводятся ежегодно в США (Stata Conference), Великобритании, Германии и Италии, а также реже в ряде других стран. Местные дистрибьюторы Stata проводят встречи групп пользователей в своих странах.

Программные продукты

Существует четыре сборки Stata: Stata/MP, Stata/SE, Stata/BE и Numerics от Stata. [17] В то время как Stata/MP допускает встроенную параллельную обработку определенных команд, Stata/SE и Stata/BE являются узкими местами и ограничивают использование только одним ядром. [18] Stata/MP выполняет определенные команды примерно в 2,4 раза быстрее, что составляет примерно 60% от теоретической максимальной эффективности, при запуске параллельных процессов на четырех ядрах ЦП по сравнению с версиями SE или BE. [18] Numerics от Stata позволяет осуществлять веб-интеграцию команд Stata.

Версии SE и BE различаются объемом памяти, которую могут использовать наборы данных. Хотя Stata/MP может хранить от 10 до 20 миллиардов наблюдений и до 120 000 переменных, Stata/SE и Stata/BE хранят до 2,14 миллиардов наблюдений и обрабатывают 32 767 переменных и 2048 переменных соответственно. Максимальное количество независимых переменных в модели составляет 65 532 переменных в Stata/MP, 10 998 переменных в Stata/SE и 798 переменных в Stata/BE. [17]

Цены и лицензирование Stata зависят от его предполагаемого использования: бизнес, правительство/некоммерческая организация, образование или обучение. Однопользовательские лицензии можно продлевать ежегодно или бессрочно. Другие типы лицензий включают одиночную лицензию для одновременного использования пользователями, лицензию для сайта, корпоративную лицензию для одного пользователя для оптовых цен или студенческую лабораторию. [19]

Пример кода

Следующий набор команд посвящен простому управлению данными. [20]

sysuse auto // Открытие включенного автоматического просмотра набора данных  // Просмотр набора данных (открывает окно редактора данных)описать  // Описывает набор данных и связанные переменные суммировать  // Сводную информацию о числовых переменныхкодовая книга make Foreign // Сводная информация о make (строковых) и внешних (числовых) переменныхпросмотреть, если  отсутствует (rep78) // Просматривать только наблюдения с отсутствующими данными для переменной Rep78 list make , если  отсутствует (rep78) // Список марок автомобилей с отсутствующими данными для переменной Rep78

Следующий набор команд переходит к описательной статистике.

суммировать цену, подробно // Подробная сводная статистика для переменной ценыtabulate Foreign // Односторонняя таблица частот для переменных external tabulate Rep78 Foreign, row // Двусторонняя таблица частот для переменных Rep78 и Foreignsum mpg if Foreign ==  1  // Сводная информация о расходе миль на галлон, если автомобиль иностранный (знак "==" проверяет на равенство) по зарубежному, sort : sum mpg // Как и выше, но с использованием префикса "by". tabulate Foreign, sum (mpg) // То же, что и выше, но с использованием команды tabulate.

Простой тест гипотезы:

ttest миль на галлон, по (иностранному) // T-тест для определения разницы средних значений для отечественных и иностранных автомобилей

Графические данные:

twoway (разброс веса миль на галлон) // Диаграмма рассеяния, показывающая взаимосвязь между расходом миль на галлон и весом в двух направлениях (разброс веса миль на галлон), по (иностранным, общим ) // Три графика для отечественных, иностранных и всех автомобилей

Линейная регрессия:

генерировать wtsq = вес ^ 2  // Создать новую переменную для регрессии веса в квадрате mpg Weight wtsq зарубежный, vce (робастный) // Линейная регрессия миль на галлон по весу, wtsq и зарубежному прогнозу mpghat // Создать новую переменную, содержащую прогнозируемые значения миль на галлон в обе стороны (разброс веса миль на галлон) (строка миль на галлон веса, сортировка ), по (иностранным) // Данные графика и подобранная линия
Графики регрессии из автоматического набора данных в Stata 17

Смотрите также

Рекомендации

  1. ^ аб Ньютон, Х. Джозеф (2005). «Разговор с Уильямом Гулдом». Стата-журнал . 5 (1): 19–31. дои : 10.1177/1536867X0500500103 . S2CID  118322998.
  2. ^ Кокс, Николас Дж. «Часто задаваемые вопросы по статистике». Статалист: Стата Форум . Проверено 24 апреля 2021 г.
  3. ^ «Манипулирование данными STATA: основы и приложения 7» (PDF) . Iuj.ac.jp. _ Проверено 27 января 2022 г.
  4. ^ Суарес, Эрик; Перес, Синтия; Ногерас, Грасиела; Морено-Горрин, Камилла (2016). биостатистика в общественном здравоохранении, использующая статистические данные.
  5. ^ «Дисциплины». Stata: Программное обеспечение для статистики и обработки данных . Проверено 21 апреля 2021 г.
  6. ^ abcdefghi Кокс, Николас Дж. (2005). «Краткая история Stata к 20-летию». Стата-журнал . 5 (1): 2–18. дои : 10.1177/1536867X0500500102 . S2CID  118366843 . Проверено 22 апреля 2021 г.
  7. ^ аб Гулд, Уильям В.; Кокс, Николас Дж. «Когда была впервые выпущена Stata? Когда были выпущены более поздние версии?». Stata: Программное обеспечение для статистики и обработки данных . Проверено 22 апреля 2021 г.
  8. ^ «Что нового в Stata?». Stata: Программное обеспечение для статистики и обработки данных . СтатаКорп . Проверено 25 апреля 2023 г.
  9. ^ «Кадры данных: несколько наборов данных в памяти» . Стата.com . Проверено 13 августа 2020 г.
  10. ^ «Помощь в Stata 16 для сохранения» . Стата.com .
  11. ^ Глоссарий и указатель Stata: выпуск 17 (PDF) . Колледж-Стейшн, Техас: Stata Press. стр. 1–50. ISBN 1-59718-283-4.
  12. ^ «Функции Статы» . Stata: Программное обеспечение для статистики и обработки данных . СтатаКорп . Проверено 24 апреля 2021 г.
  13. ^ «Программа — определение программ и управление ими» (PDF) . Stata: Программное обеспечение для статистики и обработки данных . Стата Пресс . Проверено 24 апреля 2021 г.
  14. ^ «ssc — установка и удаление пакетов из SSC» (PDF) . Stata: Программное обеспечение для статистики и обработки данных . Стата Пресс . Проверено 24 апреля 2021 г.
  15. ^ «Используйте Python и Stata вместе | Stata» .
  16. ^ «Как переключить рабочий процесс со Stata на R, по одному биту за раз · Фредерик Солт» . Fsolt.org . Проверено 27 января 2022 г.
  17. ^ ab «Какая Stata мне подходит?». Stata: Программное обеспечение для статистики и обработки данных . Проверено 23 апреля 2021 г.
  18. ^ ab "Параллельная статистика". Гарвардская школа бизнеса.
  19. ^ "Заказать программное обеспечение Stata" . Stata: Программное обеспечение для статистики и обработки данных . СтатаКорп . Проверено 25 апреля 2021 г.
  20. ^ Начало работы со Stata для Windows (PDF) (выпуск 17-го изд.). Колледж-Стейшн, Техас: Stata Press. стр. 1–19. ISBN 1-59718-334-2. Проверено 25 апреля 2021 г.

дальнейшее чтение

Внешние ссылки