Мудрость толпы

Мудрость толпы — это коллективное мнение разнообразной независимой группы людей, а не мнения одного эксперта. Этот процесс, хотя и не является чем-то новым для информационного века , оказался в центре внимания благодаря таким социальным информационным сайтам, как Quora , Reddit , Stack Exchange , Wikipedia , Yahoo! Ответы и другие веб-ресурсы, опирающиеся на коллективные человеческие знания. ^[1] Объяснение этого явления заключается в том, что с каждым отдельным суждением связан своеобразный шум, и взятие среднего значения по большому количеству ответов в некоторой степени поможет нейтрализовать эффект этого шума. ^[2]

Суд присяжных можно понимать как, по крайней мере частично, опирающийся на мудрость толпы, по сравнению с судебным разбирательством, которое полагается на одного или нескольких экспертов. В политике иногда жеребьевка проводится как пример того, как могла бы выглядеть мудрость толпы. Принятие решений будет осуществляться разнообразной группой, а не достаточно однородной политической группой или партией. Исследования в области когнитивной науки пытались смоделировать взаимосвязь между эффектами мудрости толпы и индивидуальным познанием.

Совокупные ответы большой группы на вопросы, связанные с оценкой количества, общими знаниями о мире и пространственным мышлением, как правило, оказываются такими же хорошими, как и часто превосходящими ответы, данные любым из людей в группе.

Теоремы присяжных из теории социального выбора предоставляют формальные аргументы в пользу мудрости толпы при наличии множества более или менее правдоподобных предположений. И предположения, и выводы остаются спорными, хотя сами теоремы таковыми не являются. Самая старая и простая теорема Кондорсе о жюри (1785 г.).

Примеры

Аристотель считается первым человеком, написавшим о «мудрости толпы» в своем труде «Политика» . ^[3]^[4] Согласно Аристотелю, «возможно, что многие, хотя и не хорошие индивидуально, но когда они собираются вместе, могут быть лучше, не индивидуально, а коллективно, чем те, кто таковы, точно так же, как публичные обеды, на которые многие вклады лучше, чем те, которые поставляются за счет одного человека». ^[5]

Классический метод поиска по принципу «мудрости толпы» предполагает точечную оценку непрерывной величины. На сельской ярмарке 1906 года в Плимуте 800 человек участвовали в конкурсе по оценке веса забитого и разделанного быка. Статистик Фрэнсис Гальтон заметил, что среднее значение веса в 1207 фунтов было точным в пределах 1% от истинного веса в 1198 фунтов. ^[6] Это способствовало пониманию в когнитивной науке того, что индивидуальные суждения толпы можно смоделировать как вероятностное распределение ответов с медианой, сосредоточенной вблизи истинного значения оцениваемой величины. ^[7]

В последние годы феномен «мудрости толпы» стал использоваться в бизнес-стратегиях, рекламных пространствах, а также в политических исследованиях. Маркетинговые фирмы собирают отзывы потребителей и впечатления о бренде для клиентов. Между тем, такие компании, как Trada, привлекают толпы людей для разработки рекламы, основанной на требованиях клиентов. ^[8] Наконец, политические предпочтения агрегируются для прогнозирования или прогнозирования политических выборов. ^[9]^[10]^[11]

Преобладают нечеловеческие примеры. Например, голден золотистый – рыба, предпочитающая тенистые места. Одиночному ловцу очень трудно найти тенистые участки в водоеме, тогда как большая группа гораздо эффективнее находит тень. ^[12]

Многомерные задачи и моделирование

Хотя классические выводы «мудрости толпы» сосредоточены на точечных оценках одиночных непрерывных величин, это явление также масштабируется до задач более высокого измерения, которые не поддаются таким методам агрегирования, как взятие среднего значения. Для этих целей были разработаны более сложные модели. Вот несколько примеров задач более высокого уровня, демонстрирующих эффект мудрости толпы:

Комбинаторные задачи, такие как минимальные остовные деревья и задача коммивояжера , в которой участники должны найти кратчайший маршрут между массивом точек. Модели этих проблем либо разбивают проблему на общие части ( метод локальной декомпозиции агрегации), либо находят решения, наиболее похожие на индивидуальные решения человека ( метод агрегации глобального сходства ). ^[2]^[13]
Проблемы упорядочивания, такие как порядок президентов США или городов мира по численности населения. Полезным подходом в этой ситуации является моделирование Терстона , при котором каждый участник имеет доступ к истинному упорядочению, но с разной степенью стохастического шума , что приводит к различиям в окончательном порядке, заданном разными людьми. ^[14]^[15]^[16]^[17]
Задачи о многоруких бандитах , в которых участники выбирают из набора альтернатив с фиксированными, но неизвестными ставками вознаграждения с целью максимизировать прибыль после ряда испытаний. Чтобы учесть сочетание процессов принятия решений и индивидуальные различия в вероятностях победы и сохранения данной альтернативы по сравнению с проигрышем и переходом к другой альтернативе, были использованы иерархические байесовские модели , которые включают параметры для отдельных людей, полученные из гауссовских распределений. ^[18]

Удивительно популярный

В ходе дальнейшего изучения способов улучшения результатов ученые Слоанской нейроэкономической лаборатории Массачусетского технологического института в сотрудничестве с Принстонским университетом разработали новую методику, названную « удивительно популярной ». На заданный вопрос людей просят дать два ответа: какой, по их мнению, ответ является правильным, и каким, по их мнению, будет общественное мнение. Усредненная разница между ними указывает на правильный ответ. Было обнаружено, что «удивительно популярный» алгоритм снижает количество ошибок на 21,3 процента по сравнению с простым голосованием большинством и на 24,2 процента по сравнению с базовым голосованием с взвешиванием по доверию, когда люди выражают свою уверенность в своих ответах, и на 22,2 процента по сравнению с расширенным голосованием. голосования, взвешенные по доверию, при которых используются только ответы с самым высоким средним значением. ^[19]

Определение толпы

В контексте мудрости толпы термин толпа приобретает широкий смысл. Одно определение характеризует толпу как группу людей, собранную открытым призывом к участию. ^[20] Хотя толпы часто используются в онлайн-приложениях, их также можно использовать и в оффлайн-контекстах. ^[20] В некоторых случаях членам толпы могут быть предложены денежные поощрения за участие. ^[21] Некоторые применения «мудрости толпы», такие как обязанности присяжных в Соединенных Штатах, требуют участия толпы. ^[22]

Аналоги с индивидуальным познанием: «толпа внутри».

Понимание того, что реакцию толпы на задачу оценки можно смоделировать как выборку из распределения вероятностей, позволяет провести сравнение с индивидуальным мышлением. В частности, возможно, что индивидуальное познание является вероятностным в том смысле, что индивидуальные оценки извлекаются из «внутреннего распределения вероятностей». Если это так, то две или более оценок одной и той же величины, полученные от одного и того же человека, должны в среднем получить значение, более близкое к истинному, чем любое из отдельных суждений, поскольку влияние статистического шума в каждом из этих суждений снижается. Это, конечно, основано на предположении, что шум, связанный с каждым суждением, (по крайней мере, в некоторой степени) статистически независим . Таким образом, толпа должна быть независимой, но в то же время разнообразной, чтобы иметь возможность давать разнообразные ответы. Ответы на концах спектра будут компенсировать друг друга, позволяя мудрости феномена толпы занять свое место. Еще одно предостережение заключается в том, что отдельные суждения о вероятности часто склонны к крайним значениям (например, 0 или 1). Таким образом, любой положительный эффект от нескольких суждений одного и того же человека, скорее всего, будет ограничен выборками из несмещенного распределения. ^[23]

Вул и Пашлер (2008) попросили участников дать точечные оценки непрерывных величин, связанных с общими мировыми знаниями, например: «Какой процент аэропортов мира находится в Соединенных Штатах?» Не будучи заранее предупрежденными о процедуре, половину участников сразу же попросили сделать второе, другое предположение в ответ на тот же вопрос, а другую половину попросили сделать это через три недели. Среднее значение двух догадок участника было более точным, чем любое индивидуальное предположение. Более того, средние значения догадок, сделанных в условиях трехнедельной задержки, были более точными, чем догадки, сделанные в непосредственной последовательности. Одно из объяснений этого эффекта состоит в том, что предположения в ближайшем состоянии были менее независимы друг от друга ( эффект якоря ) и, таким образом, подвергались (отчасти) одному и тому же виду шума. В целом, эти результаты показывают, что индивидуальное познание действительно может быть подвержено внутреннему распределению вероятностей, характеризуемому стохастическим шумом, а не последовательно давать лучший ответ, основанный на всех знаниях, которыми обладает человек. ^[23] Эти результаты были в основном подтверждены в ходе предварительно зарегистрированной репликации высокой мощности. ^[24] Единственный результат, который не был полностью воспроизведен, заключался в том, что задержка во втором предположении приводит к лучшей оценке.

Хурихан и Бенджамин (2010) проверили гипотезу о том, что улучшения оценок, наблюдаемые Вулом и Пашлером в условиях отсроченного реагирования, были результатом большей независимости оценок. Для этого Хурихан и Бенджамин воспользовались различиями в объеме памяти среди участников. В подтверждение они обнаружили, что усреднение повторных оценок для людей с меньшим объемом памяти показало большее улучшение оценок, чем усреднение повторных оценок для людей с большим объемом памяти. ^[25]

Раухут и Лоренц (2011) расширили это исследование, снова попросив участников сделать оценки непрерывных величин, связанных с реальными знаниями. В этом случае участникам сообщили, что они сделают пять последовательных оценок. Этот подход позволил исследователям определить, во-первых, сколько раз нужно спросить себя, чтобы соответствовать точности вопросов других, а затем скорость, с которой оценки, сделанные самостоятельно, улучшают оценки по сравнению с оценками других. Авторы пришли к выводу, что вопрос, заданный самому себе бесконечное количество раз, не превосходит точность опроса всего лишь одного человека. В целом они не нашли поддержки так называемому «ментальному распределению», на основе которого люди делают свои оценки; Более того, они обнаружили, что в некоторых случаях многократное повторение вопросов фактически снижает точность. В конечном счете, они утверждают, что результаты Вула и Пашлера (2008) переоценивают мудрость «внутренней толпы» – поскольку их результаты показывают, что задавая себе вопрос более трех раз, на самом деле снижается точность до уровня ниже того, о котором сообщают Вул и Пашлер (которые только попросил участников сделать две оценки). ^[26]

Мюллер-Треде (2011) попыталась исследовать типы вопросов, в которых использование «внутренней толпы» наиболее эффективно. Он обнаружил, что, хотя прирост точности был меньше, чем можно было бы ожидать от усреднения оценок с другим человеком, повторные суждения приводят к увеличению точности как для вопросов оценки года (например, когда был изобретен термометр?), так и для вопросов об оценочных процентах (например, , какой процент интернет-пользователей подключаются из Китая?). Общие числовые вопросы (например, какова скорость звука в километрах в час?) не улучшились при повторных суждениях, в то время как усреднение индивидуальных суждений с суждениями случайного собеседника действительно улучшило точность. Это, утверждает Мюллер-Треде, является результатом границ, подразумеваемых годами и процентными вопросами. ^[27]

Ван Долдер и Ван ден Асем (2018) изучили «толпу внутри», используя большую базу данных трех конкурсов оценок, организованных Holland Casino. По каждому из этих соревнований они обнаружили, что агрегирование результатов среди отдельных лиц действительно повышает точность оценок. Более того, они также подтверждают, что этот метод работает лучше, если между последующими решениями существует временная задержка. Даже при значительной задержке между оценками агрегирование данных между людьми более выгодно. Среднее значение большого количества суждений одного и того же человека едва ли лучше, чем среднее значение двух суждений разных людей. ^[28]

Диалектический бутстреп: улучшение оценок «толпы внутри»

Херцог и Хертвиг (2009) попытались улучшить «мудрость многих в одном сознании» (т. е. «толпы внутри»), предложив участникам использовать диалектическую загрузку. Диалектический бутстрэппинг предполагает использование диалектики (аргументированное обсуждение, которое происходит между двумя или более сторонами с противоположными взглядами в попытке определить лучший ответ) и бутстреппинг (продвижение себя без помощи внешних сил). Они утверждали, что люди смогут добиться большего улучшения своих первоначальных оценок, основывая вторую оценку на противоположной информации. Следовательно, эти вторые оценки, основанные на других предположениях и знаниях, чем те, которые использовались для генерации первой оценки, также будут иметь другую ошибку (как систематическую , так и случайную ), чем первая оценка, что увеличивает точность среднего суждения. С аналитической точки зрения диалектическая загрузка должна повысить точность, пока диалектическая оценка не слишком далека и ошибки первой и диалектической оценок различны. Чтобы проверить это, Херцог и Хертвиг попросили участников сделать серию оценок дат исторических событий (например, открытия электричества), не зная, что их попросят предоставить вторую оценку. Затем половину участников просто попросили сделать повторную оценку. Другую половину попросили использовать стратегию рассмотрения противоположностей для проведения диалектических оценок (используя свои первоначальные оценки в качестве отправной точки). В частности, участников просили представить, что их первоначальная оценка неверна, подумать, какая информация могла быть неверной, что может предложить эта альтернативная информация, сделало ли бы это их оценку завышенной или заниженной, и, наконец, основываясь на этой перспективе, что их новая оценка будет такой. Результаты этого исследования показали, что, хотя диалектическая начальная загрузка не превзошла мудрость толпы (усреднение первой оценки каждого участника со оценкой случайного другого участника), она все же давала более точные оценки, чем просто просить людей сделать две оценки. ^[29]

Хирт и Маркман (1995) обнаружили, что участникам не нужно ограничиваться стратегией рассмотрения противоположного, чтобы улучшить суждения. Исследователи попросили участников рассмотреть альтернативу – использовать ее как любую правдоподобную альтернативу (а не просто сосредоточиться на «противоположной» альтернативе) – обнаружив, что простое рассмотрение альтернативы улучшает суждения. ^[30]

Не все исследования показали поддержку улучшения суждений «внутри толпы». Ариэли и его коллеги попросили участников дать ответы, основанные на их ответах на вопросы «верно-неверно» и их уверенности в этих ответах. Они обнаружили, что, хотя усреднение оценок суждений между отдельными людьми значительно улучшало оценки, усреднение повторных оценок суждений, сделанных одними и теми же людьми, не приводило к существенному улучшению оценок. ^[31]

Проблемы и подходы к решению

Исследования «мудрости толпы» обычно объясняют превосходство средних оценок толпы над индивидуальными суждениями устранением индивидуального шума ^[32] – объяснение, предполагающее независимость индивидуальных суждений друг от друга. ^[7]^[23] Таким образом, толпа склонна принимать лучшие решения, если она состоит из различных мнений и идеологий.

Усреднение может устранить случайные ошибки , которые по-разному влияют на ответ каждого человека, но не систематические ошибки , которые одинаково влияют на мнение всей толпы. Например, нельзя ожидать, что метод «мудрости толпы» компенсирует когнитивные предубеждения . ^[33]^[34]

Скотт Э. Пейдж представил теорему прогнозирования разнообразия: «Квадрат ошибки коллективного прогноза равен среднему квадрату ошибки минус прогнозируемое разнообразие». Следовательно, когда разнообразие в группе велико, ошибка толпы невелика. ^[35]

Миллер и Стивьерс уменьшили независимость индивидуальных ответов в эксперименте «мудрость толпы», ограничив общение между участниками. Участникам было предложено ответить на вопросы общего характера, такие как приказы президентов США. Для половины вопросов каждый участник начинал с порядка, предложенного другим участником (и был предупрежден об этом факте), а для другой половины они начинали со случайного порядка, и в обоих случаях им предлагалось изменить их порядок (при необходимости). в правильном порядке. Ответы, в которых участники начинали с рейтинга другого участника, были в среднем более точными, чем ответы из случайного начального условия. Миллер и Стейверс приходят к выводу, что за это явление ответственны разные знания участников на уровне предметов и что участники интегрировали и дополнили знания предыдущих участников своими собственными знаниями. ^[36]

Толпа, как правило, работает лучше всего, когда есть правильный ответ на поставленный вопрос, например, вопрос о географии или математике. ^[37] Когда нет точного ответа, толпа может прийти к произвольным выводам. ^[38] Алгоритмы «мудрости толпы» процветают, когда отдельные ответы демонстрируют близость и симметричное распределение вокруг правильного, хотя и неизвестного ответа. Эта симметрия позволяет ошибкам в ответах компенсировать друг друга в процессе усреднения. И наоборот, эти алгоритмы могут дать сбой, когда подмножество правильных ответов ограничено, и они не в состоянии противодействовать случайным искажениям. Эта проблема особенно заметна в онлайн-среде, где люди, часто с разным уровнем знаний, отвечают анонимно. Некоторые алгоритмы «мудрости толпы» решают эту проблему, используя методы голосования по максимизации ожиданий. Алгоритм «Мудрость в толпе» (WICRO) ^[34] предлагает однопроходное решение классификации. Он измеряет уровень знаний людей путем оценки относительной «дистанции» между ними. В частности, алгоритм идентифицирует экспертов, предполагая, что их ответы будут относительно «ближе» друг к другу при ответе на вопросы в их области знаний. Этот подход расширяет возможности алгоритма определять уровни знаний в сценариях, где лишь небольшая группа участников обладает знаниями в определенной области, смягчая влияние потенциальных предубеждений, которые могут возникнуть во время анонимного онлайн-взаимодействия.</ref>. ^[34]^[39]

Мудрость эффекта толпы легко подорвать. Социальное влияние может привести к тому, что среднее значение ответов толпы будет неточным, тогда как среднее геометрическое и медиана будут более надежными. ^[40] Это зависит от знания неопределенности человека и доверия к его оценке. Средний ответ людей, разбирающихся в теме, будет отличаться от среднего ответа людей, которые ничего не знают по этой теме. Простое среднее из мнений знающих и неопытных людей будет менее точным, чем то, в котором взвешивание среднего основано на неопределенности и доверии к их ответу.

Эксперименты, проведенные Швейцарским федеральным технологическим институтом, показали, что, когда группу людей просили вместе ответить на вопрос, они пытались прийти к консенсусу, что часто приводило к снижению точности ответа. Одним из предложений по противодействию этому эффекту является обеспечение того, чтобы в группу входили представители разного происхождения. ^[38]

Исследования проекта Good Judgment Project показали, что команды, организованные с помощью опросов прогнозов, могут избежать преждевременного консенсуса и получить совокупные оценки вероятности, которые более точны, чем те, которые производятся на рынках прогнозов. ^[41]

Смотрите также

Внешние ссылки

Мудрость толпы (с профессором Маркусом дю Сотуа) на YouTube