Профилирование (информатика)

В информатике профилирование относится к процессу создания и применения профилей пользователей , созданных с помощью компьютерного анализа данных .

Это использование алгоритмов или других математических методов, которые позволяют обнаруживать закономерности или корреляции в больших объемах данных, агрегированных в базах данных . Когда эти шаблоны или корреляции используются для идентификации или представления людей, их можно назвать профилями . Помимо обсуждения технологий профилирования или профилирования населения , понятие профилирования в этом смысле касается не только построения профилей, но также касается применения групповых профилей к отдельным лицам, например. например, в случаях кредитного скоринга , ценовой дискриминации или выявления рисков безопасности (Hildebrandt & Gutwirth 2008) (Elmer 2004).

Профилирование используется для предотвращения мошенничества , анализа окружающей среды и потребительского анализа . Статистические методы профилирования включают обнаружение знаний в базах данных (KDD).

Процесс профилирования

Технический процесс профилирования можно разделить на несколько этапов:

Предварительное обоснование: процесс профилирования начинается со спецификации применимой проблемной области и определения целей анализа.
Сбор данных : целевой набор данных или база данных для анализа формируется путем выбора соответствующих данных с учетом существующих знаний в предметной области и понимания данных.
Подготовка данных : данные предварительно обрабатываются для удаления шума и уменьшения сложности за счет устранения атрибутов.
Интеллектуальный анализ данных : данные анализируются с помощью алгоритма или эвристики, разработанных в соответствии с данными, моделью и целями.
Интерпретация: Найденные закономерности оцениваются на предмет их актуальности и достоверности специалистами и/или профессионалами в области применения (например, исключая ложные корреляции).
Применение: Построенные профили применяются, например, к категориям лиц, для тестирования и точной настройки алгоритмов.
Институциональное решение: учреждение решает, какие действия или политику применять к группам или отдельным лицам, чьи данные соответствуют соответствующему профилю.

Сбор, подготовка и анализ данных относятся к этапу создания профиля. Однако профилирование также относится к применению профилей, то есть к использованию профилей для идентификации или категоризации групп или отдельных лиц. Как видно из шестого шага (применение), процесс является циклическим. Между созданием и применением профилей существует обратная связь. Интерпретация профилей может привести к повторяющейся – возможно, в режиме реального времени – точной настройке конкретных предыдущих этапов процесса профилирования. Применение профилей к людям, чьи данные не использовались для построения профиля, основано на сопоставлении данных, которое предоставляет новые данные, позволяющие осуществлять дальнейшие корректировки. Процесс профилирования является одновременно динамичным и адаптивным. Хорошей иллюстрацией динамического и адаптивного характера профилирования является Межотраслевой стандартный процесс интеллектуального анализа данных ( CRISP-DM ).

Типы практик профилирования

Чтобы прояснить природу технологий профилирования, необходимо провести некоторые важные различия между различными типами методов профилирования, помимо различия между построением и применением профилей. Основные различия заключаются в различиях между профилированием «снизу вверх» и «сверху вниз» (или контролируемым и неконтролируемым обучением), а также между индивидуальными и групповыми профилями.

Контролируемое и неконтролируемое обучение

Профили можно классифицировать по способу их создания (Файяд, Пятецкий-Шапиро и Смит, 1996) (Зарский и 2002-3) . С одной стороны, профили можно создавать путем проверки гипотетической корреляции. Это называется нисходящим профилированием или контролируемым обучением . Это похоже на методологию традиционного научного исследования в том смысле, что оно начинается с гипотезы и состоит из проверки ее достоверности. Результатом такого типа профилирования является проверка или опровержение гипотезы. Можно также говорить о дедуктивном профилировании. С другой стороны, профили можно создавать путем изучения базы данных с использованием процесса интеллектуального анализа данных для обнаружения закономерностей в базе данных, о которых ранее не предполагалось. В каком-то смысле это вопрос генерации гипотез: поиска корреляций, которых никто не ожидал или о которых даже не думал. Как только шаблоны будут обнаружены, они войдут в цикл, описанный выше, и будут протестированы с использованием новых данных. Это называется обучением без учителя .

В отношении этого различия важны две вещи. Во-первых, алгоритмы обучения без учителя, похоже, позволяют создавать новый тип знаний, не основанный на гипотезе, выдвинутой исследователем, и не на основе причинно-следственных или мотивационных связей, а исключительно на основе стохастических корреляций. Во-вторых, алгоритмы обучения без учителя, по-видимому, допускают индуктивный тип построения знаний, который не требует теоретического обоснования или причинно-следственного объяснения (Custers 2004).

Некоторые авторы утверждают, что если применение профилей, основанных на компьютеризированном стохастическом распознавании образов, «работает», то есть позволяет надежно предсказывать будущее поведение, теоретическое или причинное объяснение этих закономерностей больше не имеет значения (Андерсон, 2008). Однако идея о том, что «слепые» алгоритмы предоставляют надежную информацию, не означает, что эта информация нейтральна. В процессе сбора и агрегирования данных в базу данных (первые три шага процесса построения профиля) осуществляется перевод реальных событий в машиночитаемые данные . Затем эти данные подготавливаются и очищаются для обеспечения первоначальной вычислительности. Потенциальные отклонения должны быть обнаружены в этих точках, а также при выборе разрабатываемых алгоритмов. Невозможно изучить базу данных для всех возможных линейных и нелинейных корреляций, а это означает, что математические методы, разработанные для поиска закономерностей, будут определять закономерности, которые можно найти. В случае машинного профилирования потенциальная предвзятость обусловлена не предрассудками здравого смысла или тем, что психологи называют стереотипами, а компьютерными методами, используемыми на начальных этапах процесса. Эти методы по большей части невидимы для тех, к кому применяются профили (поскольку их данные совпадают с профилями соответствующих групп).

Индивидуальные и групповые профили

Профили также должны классифицироваться по типу предмета, к которому они относятся. Этим субъектом может быть как отдельный человек, так и группа людей. Когда профиль создается на основе данных одного человека, это называется индивидуальным профилированием (Jaquet-Chiffelle 2008). Этот вид профилирования используется для выявления конкретных характеристик определенного человека, обеспечения уникальной идентификации или предоставления персонализированных услуг. Однако персонализированное обслуживание чаще всего основывается и на групповом профилировании, которое позволяет отнести человека к определенному типу лиц на основе того, что ее профиль совпадает с профилем, построенным на основе огромного количества данных о огромное количество других людей. Профиль группы может относиться к результату интеллектуального анализа данных в наборах данных, которые относятся к существующему сообществу, которое считает себя таковым, например, религиозной группе, теннисному клубу, университету, политической партии и т. д. В этом случае он может описывать ранее неизвестные модели поведения или иные характеристики такой группы (сообщества). Групповой профиль может также относиться к категории людей, которые не образуют сообщество, но имеют ранее неизвестные модели поведения или другие характеристики (Custers 2004). В этом случае профиль группы описывает конкретное поведение или другие характеристики категории людей, например, женщин с голубыми глазами и рыжими волосами или взрослых с относительно короткими руками и ногами. Можно обнаружить, что эти категории коррелируют с рисками для здоровья, способностью зарабатывать, уровнем смертности, кредитными рисками и т. д.

Если индивидуальный профиль применяется к человеку, от которого он был получен, то это прямое индивидуальное профилирование. Если групповой профиль применяется к лицу, данные которого совпадают с профилем, то это косвенное индивидуальное профилирование, поскольку профиль создан с использованием данных других людей. Аналогично, если профиль группы применяется к группе, из которой он был добыт, то это прямое профилирование группы (Jaquet-Chiffelle 2008). Однако поскольку применение группового профиля к группе подразумевает применение группового профиля к отдельным членам группы, имеет смысл говорить о косвенном групповом профилировании, особенно если групповой профиль недистрибутивен.

Распределительное и нераспределительное профилирование

Групповые профили также можно разделить по характеру их распределения (Vedder 1999). Групповой профиль является распределительным, когда его свойства одинаково применимы ко всем членам группы: все холостяки не состоят в браке или все люди с определенным геном имеют 80% шанс заразиться определенным заболеванием. Профиль является нераспределительным, если он не обязательно применим ко всем членам группы: группа лиц с определенным почтовым индексом имеет средний заработок XX или категория лиц с голубыми глазами имеет средний шанс 37% заразились конкретным заболеванием. Обратите внимание, что в этом случае вероятность того, что человек будет иметь определенную трудоспособность или заразиться конкретным заболеванием, будет зависеть от других факторов, например, пола, возраста, происхождения родителей, предыдущего состояния здоровья, образования. Должно быть очевидно, что, за исключением тавтологических профилей, подобных профилям бакалавров, большинство групповых профилей, созданных с помощью компьютерных технологий, не являются дистрибутивными. Это имеет далеко идущие последствия для точности косвенного индивидуального профилирования, основанного на сопоставлении данных с нераспределительными групповыми профилями. Не говоря уже о том, что применение точных профилей может быть несправедливым или вызвать неоправданную стигматизацию, большинство групповых профилей не будут точными.

Приложения

В финансовом секторе учреждения используют технологии профилирования для предотвращения мошенничества и кредитного скоринга . Банки хотят минимизировать риски при кредитовании своих клиентов. На основе обширной группы профилируемым клиентам присваивается определенное скоринговое значение, которое указывает на их кредитоспособность. Финансовые учреждения, такие как банки и страховые компании, также используют групповое профилирование для выявления случаев мошенничества или отмывания денег . Базы данных с транзакциями просматриваются с помощью алгоритмов, чтобы обнаружить поведение, отклоняющееся от стандарта и указывающее на потенциально подозрительные транзакции. ^[1]

В контексте трудоустройства профили могут быть полезны для отслеживания сотрудников путем мониторинга их поведения в Интернете , для выявления мошенничества с их стороны, а также для распределения человеческих ресурсов путем объединения и ранжирования их навыков. (Леопольд и Мейнц, 2008) ^[2]

Профилирование также можно использовать для поддержки людей на работе, а также для обучения, вмешиваясь в разработку адаптивных гипермедийных систем, персонализирующих взаимодействие. Например, это может быть полезно для управления вниманием (Набет, 2008).

В криминалистике существует возможность связывать различные базы данных по делам и подозреваемым и анализировать их на предмет общих закономерностей. Это можно использовать для раскрытия существующих дел или с целью установления профилей риска потенциальных подозреваемых (Geradts & Sommer 2008) (Harcourt 2006).

Профилирование потребителей

Профилирование потребителей — это форма анализа клиентов , при которой данные о клиентах используются для принятия решений по продвижению продукции , ценообразованию на продукцию, а также для персонализированной рекламы . ^[3] Когда цель состоит в том, чтобы найти наиболее прибыльный сегмент клиентов, потребительский анализ опирается на демографические данные , данные о поведении потребителей , данные о приобретенных продуктах, методах оплаты и опросы для создания профилей потребителей. Для создания прогнозных моделей на основе существующих баз данных используется статистический метод Knowledge Discovery in Databases (KDD ) . KDD группирует схожие данные о клиентах, чтобы прогнозировать будущее поведение потребителей. Другими методами прогнозирования поведения потребителей являются корреляция и распознавание закономерностей . Профили потребителей описывают клиентов на основе набора атрибутов ^[4] и обычно потребители группируются по доходу , уровню жизни , возрасту и местоположению. Профили потребителей могут также включать поведенческие характеристики, которые оценивают мотивацию клиента в процессе принятия решения о покупке . Хорошо известными примерами потребительских профилей являются геодемографическая классификация домохозяйств Mosaic от Experian , Acorn от CACI и Personicx от Acxiom . ^[5]

Окружающий интеллект

В искусственно созданной среде с окружающим интеллектом повседневные объекты имеют встроенные датчики и встроенные системы , которые позволяют объектам распознавать присутствие и потребности людей и реагировать на них. Окружающий интеллект основан на автоматизированном профилировании и дизайне взаимодействия человека и компьютера . ^[6] Датчики контролируют действия и поведение человека, тем самым генерируя, собирая, анализируя, обрабатывая и храня персональные данные . Ранние примеры бытовой электроники с внешним интеллектом включают мобильные приложения , дополненную реальность и услуги на основе определения местоположения . ^[7]

Риски и проблемы

Технологии профилирования подняли множество этических, юридических и других проблем, включая конфиденциальность , равенство , надлежащую правовую процедуру , безопасность и ответственность . Многие авторы предостерегают от возможностей новой технологической инфраструктуры, которая может возникнуть на основе полуавтономных технологий профилирования (Lessig 2006) (Solove 2004) (Schwartz 2000).

Конфиденциальность является одним из основных поднятых вопросов. Технологии профилирования делают возможным масштабный мониторинг поведения и предпочтений человека. Профили могут раскрывать личную или частную информацию о людях, о которой они сами могут даже не подозревать (Hildebrandt & Gutwirth 2008).

Технологии профилирования по своей природе являются дискриминационными инструментами. Они допускают беспрецедентные виды социальной сортировки и сегментации, которые могут иметь несправедливые последствия. Людям, о которых идет речь, возможно, придется платить более высокую цену, ^[8] они могут упустить важные предложения или возможности и могут подвергаться повышенному риску, поскольку удовлетворение их потребностей менее прибыльно (Lyon 2003). В большинстве случаев они не будут знать об этом, поскольку практика профилирования в большинстве случаев невидима, а сами профили часто защищены интеллектуальной собственностью или коммерческой тайной. Это создает угрозу равенству и солидарности граждан. В более широком масштабе это может привести к сегментации общества. ^[9]

Одна из проблем, лежащих в основе потенциальных нарушений конфиденциальности и недискриминации, заключается в том, что процесс профилирования чаще всего невидим для тех, кого профилируют. Это создает трудности, поскольку становится трудно, если не невозможно, оспорить применение определенного группового профиля. Это нарушает принципы надлежащей правовой процедуры: если человек не имеет доступа к информации, на основании которой ему удерживают льготы или приписывают определенные риски, он не может оспаривать то, как с ним обращаются (Steinbock 2005).

Профили могут быть использованы против людей, когда они попадают в руки людей, которые не имеют права доступа или использования информации. Важным вопросом, связанным с этими нарушениями безопасности, является кража личных данных .

Если применение профилей причиняет вред, необходимо определить ответственность за этот вред и тех, кто будет нести ответственность. Должен ли программист, поставщик услуг профилирования или пользователь профилирования быть привлечен к ответственности? Этот вопрос ответственности становится особенно сложным в случае, если приложение и решения по профилям также стали автоматизированными, как в случае с автономными вычислениями или решениями окружающего интеллекта для автоматизированных решений на основе профилирования.

Смотрите также

Найдите профиль в Викисловаре, бесплатном словаре.