Премия Netflix

Премия Netflix представляла собой открытый конкурс на лучший алгоритм совместной фильтрации для прогнозирования пользовательских рейтингов фильмов на основе предыдущих рейтингов без какой-либо другой информации о пользователях или фильмах, то есть без идентификации пользователей, за исключением номеров, присвоенных для конкурса.

Конкурс проводился сервисом потокового видео Netflix , и в нем могли принять участие все, кто не связан с Netflix (нынешние и бывшие сотрудники, агенты, близкие родственники сотрудников Netflix и т. д.), а также не является резидентом определенных заблокированных стран (таких как Куба или Северная Корея). ^[1] 21 сентября 2009 года главный приз в размере 1 000 000 долларов США был вручен команде BellKor Pragmatic Chaos, которая превзошла собственный алгоритм Netflix для прогнозирования рейтингов на 10,06%. ^[2]

Проблемы и наборы данных

Netflix предоставил обучающий набор данных из 100 480 507 оценок, которые 480 189 пользователей поставили 17 770 фильмам. Каждый обучающий рейтинг представляет собой четверку вида <user, movie, date of grade, grade>. Поля пользователя и фильма представляют собой целочисленные идентификаторы, а оценки — от 1 до 5 ( целых ) звезд. ^[3]

Квалификационный набор данных содержит более 2 817 131 троек формы , оценки которых известны только жюри. Алгоритм участвующей команды должен предсказать оценки по всему квалификационному набору, но им сообщаются оценки только для половины данных: набора викторин , состоящего из 1 408 342 оценок. Другая половина — это тестовый набор из 1 408 789, и результаты этого теста используются жюри для определения потенциальных победителей. Только судьи знают, какие рейтинги входят в набор викторин, а какие в тестовый набор - такое расположение предназначено для того, чтобы затруднить подъем на холм в тестовом наборе. Представленные прогнозы сравниваются с истинными оценками в форме среднеквадратической ошибки (RMSE), и цель состоит в том, чтобы максимально уменьшить эту ошибку. Обратите внимание: хотя фактические оценки представляют собой целые числа в диапазоне от 1 до 5, представленные прогнозы не обязательно должны быть такими. Netflix также выявил пробную подгруппу из 1 408 395 оценок в наборе обучающих данных. Наборы пробных , тестовых и тестовых данных были выбраны так , чтобы иметь схожие статистические свойства.<user, movie, date of grade>

Вкратце, данные, использованные в Netflix Prize, выглядят следующим образом:

Обучающий набор (99 072 112 рейтингов, не включая набор датчиков; 100 480 507, включая набор датчиков)
- Набор зондов (1 408 395 оценок)
Отборочный набор (2 817 131 рейтинг) в составе:
- Тестовый набор (1 408 789 оценок), используемый для определения победителей.
- Набор викторин (1 408 342 рейтинга), используемый для расчета результатов в таблице лидеров.

Для каждого фильма название и год выпуска указаны в отдельном наборе данных. Никакой информации о пользователях не предоставляется вообще. Чтобы защитить конфиденциальность клиентов, «некоторые рейтинговые данные для некоторых клиентов в обучающем и квалификационном наборах были намеренно изменены одним или несколькими из следующих способов: удалением рейтингов; вставкой альтернативных рейтингов и дат; и изменением рейтинга. даты». ^[2]

Обучающий набор построен таким образом, что средний пользователь оценил более 200 фильмов, а средний фильм оценили более 5000 пользователей. Но данные сильно разнятся : некоторые фильмы в обучающей выборке имеют всего 3 рейтинга ^[4] , в то время как один пользователь оценил более 17 000 фильмов. ^[5]

Были некоторые разногласия относительно выбора RMSE в качестве определяющего показателя. Утверждалось, что даже такое небольшое улучшение, как 1% RMSE, приводит к значительной разнице в рейтинге «топ-10» наиболее рекомендуемых пользователю фильмов. ^[6]

Призы

Призы основывались на улучшении собственного алгоритма Netflix, называемого Cinematch , или за результат предыдущего года, если команда добилась улучшения, превышающего определенный порог. Тривиальный алгоритм, который прогнозирует для каждого фильма в наборе викторины его среднюю оценку на основе обучающих данных, дает RMSE 1,0540. Cinematch использует «простые статистические линейные модели с большим количеством обработки данных». ^[7]

Используя только обучающие данные, Cinematch получает RMSE 0,9514 для данных викторины, что примерно на 10 % лучше, чем у тривиального алгоритма. Cinematch на тестовом наборе показал аналогичную производительность — 0,9525. Чтобы выиграть главный приз в размере 1 000 000 долларов США, участвующей команде пришлось улучшить этот показатель еще на 10%, чтобы достичь 0,8572 на тестовом наборе. ^[2] Такое улучшение набора тестов соответствует RMSE 0,8563.

Пока ни одна команда не выиграла главный приз, каждый год за лучший результат на данный момент присуждается приз в размере 50 000 долларов США. Однако, чтобы выиграть этот приз, алгоритм должен был улучшить RMSE в наборе викторин как минимум на 1% по сравнению с предыдущим победителем приза за прогресс (или над Cinematch в первый год). Если ни одна заявка не будет успешной, премия за прогресс в этом году не присуждается.

Чтобы выиграть прогресс или главный приз, участник должен был предоставить исходный код и описание алгоритма жюри в течение одной недели после обращения к нему. После проверки победитель также должен был предоставить Netflix неисключительную лицензию. Netflix опубликует только описание, а не исходный код системы. (Чтобы сохранить в секрете свой алгоритм и исходный код, команда могла отказаться претендовать на приз.) Жюри также держало свои прогнозы в секрете от других участников. Команда может отправить столько попыток предсказать оценки, сколько пожелает. Первоначально подача заявок была ограничена разом в неделю, но вскоре интервал был изменен до одного раза в день. Лучшая подача команды на данный момент засчитывается как ее текущая подача.

Как только одной из команд удавалось улучшить RMSE на 10% или более, жюри делало последний звонок , давая всем командам 30 дней на отправку своих заявок. Только тогда у команды, представившей лучшую заявку, запросили описание алгоритма, исходный код и неисключительную лицензию, и после успешной проверки; объявлен обладателем главного приза.

Конкурс продлится до тех пор, пока не будет объявлен обладатель главного приза. Если бы главный приз никто не получил, он бы длился как минимум пять лет (до 2 октября 2011 года). После этой даты конкурс мог быть прекращен в любое время по собственному усмотрению Netflix.

Прогресс с годами

Соревнование началось 2 октября 2006 года. К 8 октября команда WXYZConsulting уже превзошла результаты Cinematch. ^[8]

К 15 октября три команды обыграли Cinematch, одна из них на 1,06%, что достаточно, чтобы претендовать на ежегодный приз прогресса. ^[9] К июню 2007 года для участия в соревновании зарегистрировались более 20 000 команд из более чем 150 стран. 2000 команд представили более 13 000 наборов прогнозов. ^[3]

В течение первого года соревнований несколько лидеров поменялись первыми местами. Наиболее известными из них были: ^[10]

WXYZConsulting, команда Вэй Сюя и И Чжана. (Лидер в ноябре – декабре 2006 г.)
ML@UToronto A, команда из Университета Торонто под руководством профессора Джеффри Хинтона . (Лидер в период с октября по декабрь 2006 г.)
Gravity, команда из четырех ученых из Будапештского технологического университета (лидер в январе – мае 2007 г.).
BellKor, группа учёных из AT&T Labs . (Лидер с мая 2007 года.)
«Планета динозавров» — команда из трех студентов Принстонского университета . (3 сентября 2007 года он был лидером на один час, прежде чем BellKor вернула лидерство.)

12 августа 2007 года множество участников собрались на KDD Cup and Workshop 2007, проходившем в Сан-Хосе, Калифорния . ^[11] Во время семинара все четыре лучшие команды в таблице лидеров на тот момент представили свои методы. Команда из IBM Research — Ян Лю, Сахарон Россет, Клаудия Перлич и Женьчжэнь Коу — заняла третье место в задании 1 и первое место в задании 2.

За второй год соревнований на лидирующие позиции вышли только три команды:

BellKor, группа ученых из AT&T Labs (лидер в мае 2007 г. - сентябре 2008 г.)
BigChaos, команда австрийских ученых из Commendo Research & Consulting (лидер в одной команде с октября 2008 г.)
BellKor в BigChaos, объединенной команде двух ведущих одиночных команд (лидер с сентября 2008 г.)

Премия Прогресса 2007 г.

2 сентября 2007 г. конкурс вступил в период «последнего звонка» на премию «Прогресс 2007». В конкурсе приняли участие более 40 000 команд из 186 стран. У них было тридцать дней на подачу предложений на рассмотрение. В начале этого периода лидирующей командой была BellKor со RMSE 0,8728 (улучшение на 8,26%), за ней следовали Dinosaur Planet (RMSE = 0,8769; улучшение на 7,83%) ^[12] и Gravity (RMSE = 0,8785; улучшение на 7,66%). ). В последний час последнего звонка первое место заняла работа "КорБелл". Оказалось, что это альтернативное название команды BellKor. ^[13]

13 ноября 2007 года команда KorBell (ранее BellKor) была объявлена победителем премии Progress Prize в размере 50 000 долларов США со RMSE 0,8712 (улучшение на 8,43%). ^[14] В состав команды входили три исследователя из AT&T Labs : Иегуда Корен, Роберт Белл и Крис Волинский. ^[15] По требованию они опубликовали описание своего алгоритма. ^[16]

Премия Прогресса 2008 г.

Премию «Прогресс 2008» получила команда BellKor. Их работа в сочетании с другой командой BigChaos достигла RMSE 0,8616 с 207 наборами предикторов. ^[17] В состав совместной группы входили два исследователя из Commendo Research & Consulting GmbH, Андреас Тёшер и Михаэль Ярер (первоначально команда BigChaos) и три исследователя из AT&T Labs , Иегуда Корен, Роберт Белл и Крис Волинский (первоначально команда BellKor). ^[18] По требованию они опубликовали описание своего алгоритма. ^[19]^[20]

Это была последняя премия за прогресс, поскольку достижения необходимого улучшения на 1% по сравнению с премией за прогресс 2008 года было бы достаточно, чтобы претендовать на главный приз. Призовые деньги были переданы благотворительным организациям, выбранным победителями.

2009 год

25 июля 2009 года команда «The Ensemble», образовавшаяся в результате слияния команд «Grand Prize Team» и «Opera Solutions и Vandelay United», добилась улучшения на 10,09% по сравнению с Cinematch (RMSE викторины 0,8554). ^[21]^[22]

26 июня 2009 года команда «BellKor's Pragmatic Chaos», образовавшаяся в результате слияния команд «Bellkor in BigChaos» и «Pragmatic Theory», добилась улучшения на 10,05% по сравнению с Cinematch (RMSE викторины 0,8558). Затем конкурс Netflix Prize вступил в период «последнего звонка» для получения главного приза. В соответствии с Правилами, у команд было тридцать дней, до 26 июля 2009 г., 18:42:37 UTC, чтобы подать заявки, которые будут рассматриваться для получения этого Приза. ^[23]

26 июля 2009 года Netflix прекратил сбор заявок на конкурс Netflix Prize. ^[24]

Окончательное положение таблицы лидеров на тот момент показало, что две команды соответствуют минимальным требованиям для получения главного приза. «Ансамбль» с улучшением на 10,10% по сравнению с Cinematch в квалификационном наборе (RMSE викторины 0,8553) и «Прагматический хаос BellKor» с улучшением на 10,09% по сравнению с Cinematch в квалификационном наборе (RMSE викторины 0,8554). ^[25]^[26] Победителем главного приза должен был стать тот, кто покажет лучшие результаты на тестовом наборе.

18 сентября 2009 года Netflix объявил команду BellKor's Pragmatic Chaos победителем (тестовое RMSE 0,8567), и приз был вручен команде на церемонии 21 сентября 2009 года. ^[27] «Ансамбль» Команда совпала с результатом BellKor, но, поскольку BellKor представила свои результаты на 20 минут раньше, по правилам приз присуждается BellKor. ^[22]^[28]

В состав совместной команды «Прагматический хаос BellKor» вошли два австрийских исследователя из Commendo Research & Consulting GmbH, Андреас Тёшер и Михаэль Ярер (первоначально команда BigChaos), два исследователя из AT&T Labs , Роберт Белл и Крис Волинский, Иегуда Корен из Yahoo! (первоначально команда BellKor) и два исследователя из Pragmatic Theory, Мартин Пиотт и Мартин Шабберт. ^[29] По требованию они опубликовали описание своего алгоритма. ^[30]

Сообщается, что команда получила «сомнительную награду» ( sic Netflix) худших RMSE в наборах данных викторин и тестов . Из 44 014 заявок, поданных 5 169 командами, была «Lanterne Rouge» во главе с Дж. М. Линакром, который также был участник коллектива «Ансамбль».

Отменённое продолжение

12 марта 2010 года Netflix объявил, что не будет проводить второй конкурс премии, о котором он объявил в августе прошлого года. Решение было принято в ответ на судебный иск и опасения Федеральной торговой комиссии по конфиденциальности. ^[31]

Проблемы конфиденциальности

Хотя наборы данных были созданы для сохранения конфиденциальности клиентов, Премия подверглась критике со стороны защитников конфиденциальности. В 2007 году два исследователя из Техасского университета в Остине смогли идентифицировать отдельных пользователей , сопоставив наборы данных с рейтингами фильмов в базе данных фильмов в Интернете . ^[32]^[33]

17 декабря 2009 года четыре пользователя Netflix подали коллективный иск против Netflix, утверждая, что Netflix нарушил законы США о справедливой торговле и Закон о защите конфиденциальности видео , выпустив наборы данных. ^[34] В обществе обсуждались вопросы конфиденциальности участников исследования . 19 марта 2010 года Netflix достигла мирового соглашения с истцами, после чего они добровольно отклонили иск.

Смотрите также

Внешние ссылки

Официальный веб-сайт
Премия Netflix на RecSysWiki
Кейт Грин (06 октября 2006 г.). «Вызов Netflix на 1 миллион долларов». Обзор технологий .
Роберт М. Белл; Джим Беннетт; Иегуда Корен и Крис Волинский (май 2009 г.). «Приз в миллион долларов по программированию». IEEE-спектр . Архивировано из оригинала 11 мая 2009 г. Проверено 8 мая 2009 г.
Надежная деанонимизация больших разреженных наборов данных, Арвинд Нараянан и Виталий Шматиков
Роберт М. Белл, Иегуда Корен и Крис Волинский (2010), «Теперь все вместе: взгляд на премию NETFLIX PRIZE», Chance , 23 (1): 24, doi : 10.1007/s00144-010-0005-2
Андрей Фейервергер; Ю Хэ и Шаши Хатри (2012), «Статистическая значимость проблемы Netflix», Statistical Science , 27 (2): 202–231, arXiv : 1207.5649 , doi : 10.1214/11-STS368, S2CID 43556443
Приз Netflix в 1 миллион долларов — Netflix никогда не использовал свой алгоритм стоимостью 1 миллион долларов из-за затрат на разработку (2009 г.) — Сент