Этика больших данных , также известная как этика данных , относится к систематизации, защите и рекомендациям концепций правильного и неправильного поведения в отношении данных , в частности персональных данных . [1] С момента появления Интернета количество и качество данных резко возросли и продолжают расти в геометрической прогрессии. Большие данные описывают этот большой объем данных, который настолько объемен и сложен, что традиционное программное обеспечение для обработки данных не может с ними справиться. Недавние инновации в медицинских исследованиях и здравоохранении, такие как высокопроизводительное секвенирование генома, визуализация высокого разрешения, электронные медицинские карты пациентов и множество подключенных к Интернету медицинских устройств, вызвали поток данных , который в ближайшем будущем достигнет эксабайтного диапазона. Этика данных становится все более актуальной по мере увеличения количества данных из-за масштаба воздействия.
Этика больших данных отличается от информационной этики, поскольку фокус информационной этики больше касается вопросов интеллектуальной собственности и проблем, связанных с библиотекарями, архивистами и специалистами по информации, в то время как этика больших данных больше касается сборщиков и распространителей структурированных или неструктурированных данных , таких как брокеры данных , правительства и крупные корпорации. Однако, поскольку системы искусственного интеллекта или машинного обучения регулярно создаются с использованием больших наборов данных, обсуждения, касающиеся этики данных, часто переплетаются с обсуждениями этики искусственного интеллекта. [2] В последнее время вопросы этики больших данных также исследовались в связи с другими областями технологий и научной этики, включая этику в математике и инженерную этику , поскольку многие области прикладной математики и инженерии используют все более большие наборы данных.
Этика данных касается следующих принципов: [3]
Право собственности на данные включает определение прав и обязанностей в отношении собственности, таких как возможность осуществлять индивидуальный контроль над (включая ограничение обмена) персональными данными, составляющими цифровую идентификацию . Вопрос о праве собственности на данные возникает, когда кто-то записывает наблюдения за отдельным лицом. Наблюдатель и наблюдаемый оба заявляют о своих правах на данные. Также возникают вопросы относительно обязанностей, которые наблюдатель и наблюдаемый имеют по отношению друг к другу. Эти вопросы становятся все более актуальными с Интернетом, увеличивающим масштаб и систематизацию наблюдения за людьми и их мыслями. Вопрос о праве собственности на персональные данные связан с вопросами корпоративной собственности и интеллектуальной собственности. [4]
В Европейском союзе некоторые утверждают, что Общий регламент по защите данных указывает на то, что частные лица владеют своими персональными данными, хотя это и оспаривается. [5]
Высказывались опасения относительно того, как предубеждения могут быть интегрированы в разработку алгоритма, что приведет к систематическому угнетению. [6]
С точки зрения управления этика больших данных касается того, какие типы выводов и прогнозов следует делать с использованием технологий больших данных, таких как алгоритмы. [7]
Упреждающее управление — это практика использования предиктивной аналитики для оценки возможного будущего поведения. [8] Это имеет этические последствия, поскольку дает возможность нацеливаться на определенные группы и места, которые могут способствовать предрассудкам и дискриминации. [8] Например, предиктивная охрана правопорядка выделяет определенные группы или районы, за которыми следует следить более пристально, чем за другими, что приводит к большему количеству санкций в этих областях и более пристальному наблюдению за теми, кто соответствует тем же профилям, что и те, кто подвергается санкциям. [9]
Термин «ползучее управление» относится к данным, которые были созданы с определенной целью, но которые были перепрофилированы. [8] Такая практика наблюдается в отношении данных авиационной отрасли, которые были перепрофилированы для профилирования и управления рисками безопасности в аэропортах. [8]
Конфиденциальность была представлена как ограничение использования данных, что также может считаться неэтичным. [10] Например, обмен данными о здравоохранении может пролить свет на причины заболеваний, последствия лечения и может позволить проводить индивидуальный анализ на основе потребностей отдельных лиц. [10] Это имеет этическое значение в области этики больших данных, поскольку, хотя многие ценят конфиденциальность, возможности обмена данными также весьма ценны, хотя они могут противоречить чьему-либо представлению о конфиденциальности. Отношение к обмену данными может основываться на предполагаемой потере контроля над данными и страхе эксплуатации персональных данных. [10] Однако можно извлечь ценность данных, не ставя под угрозу конфиденциальность.
Некоторые ученые, такие как Джонатан Х. Кинг и Нил М. Ричардс, пересматривают традиционное значение конфиденциальности, а другие задаются вопросом, существует ли конфиденциальность до сих пор. [7] В статье 2014 года для Wake Forest Law Review Кинг и Ричард утверждают, что конфиденциальность в цифровую эпоху можно понимать не с точки зрения секретности, а с точки зрения правил, которые регулируют и контролируют использование личной информации. [7] В Европейском союзе право быть забытым дает странам ЕС право принудительно удалять или отменять привязку личных данных к базам данных по запросу отдельного лица, если информация считается неактуальной или устаревшей. [11] По словам Эндрю Хоскинса, этот закон демонстрирует моральную панику членов ЕС по поводу предполагаемой потери конфиденциальности и возможности управлять личными данными в цифровую эпоху. [12] В Соединенных Штатах граждане имеют право удалять добровольно предоставленные данные. [11] Это очень отличается от права быть забытым, поскольку большая часть данных, полученных с использованием технологий и платформ больших данных, не предоставляется добровольно. [11] В то время как традиционные понятия конфиденциальности находятся под пристальным вниманием, различные правовые рамки, связанные с конфиденциальностью в ЕС и США, демонстрируют, как страны борются с этими проблемами в контексте больших данных. Например, «право быть забытым» в ЕС и право удалять добровольно предоставленные данные в США иллюстрируют различные подходы к регулированию конфиденциальности в цифровую эпоху. [13]
Разница в стоимости услуг, предоставляемых технологическими компаниями, и стоимости акционерного капитала этих технологических компаний — это разница в обменном курсе, предлагаемом гражданину, и «рыночном курсе» стоимости их данных. С научной точки зрения в этом элементарном расчете есть много пробелов: финансовые показатели компаний, уклоняющихся от уплаты налогов, ненадежны, более подходящими могут быть либо доход, либо прибыль, как определяется пользователь, требуется большое количество людей, чтобы данные были ценными, возможны многоуровневые цены для разных людей в разных странах и т. д. Хотя эти расчеты грубые, они служат для того, чтобы сделать денежную стоимость данных более ощутимой. Другой подход — найти курсы торговли данными на черном рынке. RSA ежегодно публикует список покупок в сфере кибербезопасности, который использует этот подход. [14]
Это поднимает экономический вопрос о том, являются ли бесплатные технические услуги в обмен на персональные данные выгодным неявным обменом для потребителя. В модели торговли персональными данными, вместо компаний, продающих данные, владелец может продавать свои персональные данные и оставлять себе прибыль. [15]
Идея открытых данных сосредоточена вокруг аргумента о том, что данные должны быть доступны бесплатно и не должны иметь ограничений, которые запрещали бы их использование, таких как законы об авторском праве. С 2014 года [update]многие правительства начали двигаться в сторону публикации открытых наборов данных в целях прозрачности и подотчетности. [16] Это движение набрало обороты благодаря «активистам открытых данных», которые призвали правительства сделать наборы данных доступными, чтобы позволить гражданам самостоятельно извлекать смысл из данных и выполнять проверки и противовесы. [16] [7] Кинг и Ричардс утверждали, что этот призыв к прозрачности включает в себя напряжение между открытостью и секретностью. [7]
Активисты и ученые также утверждают, что, поскольку эта модель оценки данных с открытым исходным кодом основана на добровольном участии, доступность открытых наборов данных оказывает демократизирующее воздействие на общество, позволяя любому гражданину участвовать. [17] Для некоторых доступность определенных типов данных рассматривается как право и неотъемлемая часть деятельности гражданина. [17]
Фонд открытых знаний (OKF) перечисляет несколько типов наборов данных, которые, по его мнению, должны предоставляться правительствами, чтобы они были по-настоящему открытыми. [18] У OKF есть инструмент под названием Глобальный индекс открытых данных (GODI), краудсорсинговый опрос для измерения открытости правительств, [18] основанный на его Открытом определении . GODI стремится стать инструментом для предоставления правительствам обратной связи о качестве их открытых наборов данных. [19]
Готовность делиться данными варьируется от человека к человеку. Были проведены предварительные исследования детерминант готовности делиться данными. Например, некоторые предположили, что бэби-бумеры менее готовы делиться данными, чем миллениалы. [20]