Премия Netflix представляла собой открытый конкурс на лучший алгоритм совместной фильтрации для прогнозирования пользовательских рейтингов фильмов на основе предыдущих рейтингов без какой-либо другой информации о пользователях или фильмах, то есть без идентификации пользователей, за исключением номеров, присвоенных для конкурса.
Конкурс проводился Netflix , сервисом потокового видео, и был открыт для всех, кто не связан с Netflix (действующие и бывшие сотрудники, агенты, близкие родственники сотрудников Netflix и т. д.) и не является жителем некоторых заблокированных стран (например, Кубы или Северной Кореи). [1] 21 сентября 2009 года главный приз в размере 1 000 000 долларов США был вручен команде BellKor Pragmatic Chaos, которая превзошла собственный алгоритм Netflix по прогнозированию рейтингов на 10,06%. [2]
Netflix предоставил обучающий набор данных из 100 480 507 оценок, которые 480 189 пользователей дали 17 770 фильмам. Каждый обучающий рейтинг представляет собой квадруплет формы <user, movie, date of grade, grade>
. Поля пользователя и фильма представляют собой целочисленные идентификаторы, а оценки — от 1 до 5 ( целое число ) звезд. [3]
Квалификационный набор данных содержит более 2 817 131 триплета формы с оценками, известными только жюри. Алгоритм участвующей команды должен предсказать оценки по всему квалификационному набору, но им сообщают оценку только по половине данных: набор тестов из 1 408 342 оценок. Другая половина — это тестовый набор из 1 408 789, и результаты по нему используются жюри для определения потенциальных победителей. Только судьи знают, какие оценки находятся в наборе тестов, а какие — в тестовом наборе — эта договоренность призвана затруднить восхождение на вершину в тестовом наборе. Представленные прогнозы оцениваются по истинным оценкам в форме среднеквадратической ошибки (RMSE), и цель состоит в том, чтобы максимально уменьшить эту ошибку. Обратите внимание, что, хотя фактические оценки являются целыми числами в диапазоне от 1 до 5, представленные прогнозы не обязательно должны быть. Netflix также определил подмножество зонда из 1 408 395 оценок в наборе обучающих данных. Наборы зонда , викторины и тестовых данных были выбраны с учетом схожих статистических свойств.<user, movie, date of grade>
Вкратце данные, использованные в Netflix Prize, выглядят следующим образом:
Для каждого фильма название и год выпуска указаны в отдельном наборе данных. Никакой информации о пользователях не предоставляется. Чтобы защитить конфиденциальность клиентов, «некоторые данные рейтинга для некоторых клиентов в обучающих и квалификационных наборах были намеренно нарушены одним или несколькими из следующих способов: удаление рейтингов; вставка альтернативных рейтингов и дат; и изменение дат рейтинга». [2]
Обучающий набор построен таким образом, что средний пользователь оценил более 200 фильмов, а средний фильм был оценен более чем 5000 пользователями. Но в данных наблюдается большой разброс — некоторые фильмы в обучающем наборе имеют всего 3 оценки, [4] в то время как один пользователь оценил более 17 000 фильмов. [5]
Возникли некоторые разногласия относительно выбора RMSE в качестве определяющей метрики. Утверждалось, что даже такое небольшое улучшение, как 1% RMSE, приводит к существенной разнице в рейтинге «топ-10» наиболее рекомендуемых фильмов для пользователя. [6]
Призы были основаны на улучшении собственного алгоритма Netflix, называемого Cinematch , или на результатах предыдущего года, если команда достигла улучшения сверх определенного порога. Тривиальный алгоритм, который предсказывает для каждого фильма в наборе викторины его среднюю оценку на основе обучающих данных, дает среднеквадратичное отклонение 1,0540. Cinematch использует «простые статистические линейные модели с большим количеством условий данных». [7]
Используя только данные обучения, Cinematch набирает RMSE 0,9514 на данных викторины, что примерно на 10% лучше, чем у тривиального алгоритма. Cinematch имеет схожую производительность на тестовом наборе, 0,9525. Чтобы выиграть главный приз в размере 1 000 000 долларов, участвующей команде пришлось улучшить этот показатель еще на 10%, чтобы достичь 0,8572 на тестовом наборе. [2] Такое улучшение на наборе викторины соответствует RMSE 0,8563.
Пока ни одна команда не выигрывала главный приз, приз за прогресс в размере 50 000 долларов вручался каждый год за лучший результат на данный момент. Однако, чтобы выиграть этот приз, алгоритм должен был улучшить RMSE в наборе тестов как минимум на 1% по сравнению с предыдущим победителем приза за прогресс (или по сравнению с Cinematch, первый год). Если ни одна из команд не была успешной, приз за прогресс в этом году не присуждался.
Чтобы выиграть приз за прогресс или главный приз, участник должен был предоставить исходный код и описание алгоритма жюри в течение одной недели после того, как с ним связались. После проверки победитель также должен был предоставить неисключительную лицензию Netflix. Netflix публиковал только описание, а не исходный код системы. (Чтобы сохранить свой алгоритм и исходный код в секрете, команда могла решить не претендовать на приз.) Жюри также держало свои прогнозы в секрете от других участников. Команда могла отправлять столько попыток предсказать оценки, сколько пожелает. Первоначально заявки были ограничены одним разом в неделю, но интервал был быстро изменен на один раз в день. Лучшая на данный момент заявка команды засчитывалась как ее текущая заявка.
Как только одной из команд удавалось улучшить RMSE на 10% или более, жюри объявляло последний звонок , давая всем командам 30 дней на отправку своих заявок. Только после этого команда с лучшей заявкой получала запрос на описание алгоритма, исходный код и неисключительную лицензию, и после успешной проверки объявлялась победителем главного приза.
Конкурс продолжался до тех пор, пока не был объявлен победитель главного приза. Если бы никто не получил главный приз, он продолжался бы по крайней мере пять лет (до 2 октября 2011 года). После этой даты конкурс мог быть прекращен в любое время по усмотрению Netflix.
Конкурс начался 2 октября 2006 года. К 8 октября команда под названием WXYZConsulting уже превзошла результаты Cinematch. [8]
К 15 октября было три команды, которые победили Cinematch, одна из них на 1,06%, что было достаточно, чтобы претендовать на ежегодный приз за прогресс. [9] К июню 2007 года для участия в соревновании зарегистрировались более 20 000 команд из более чем 150 стран. 2 000 команд представили более 13 000 наборов прогнозов. [3]
В течение первого года соревнований несколько фаворитов поменялись первыми местами. Наиболее заметными из них были: [10]
12 августа 2007 года многие участники собрались на KDD Cup and Workshop 2007, который проводился в Сан-Хосе, Калифорния . [11] Во время семинара все четыре лучшие команды в таблице лидеров на тот момент представили свои методики. Команда из IBM Research — Янь Лю, Сахарон Россет, Клаудия Перлих и Чжэньчжэнь Коу — заняла третье место в Задании 1 и первое место в Задании 2.
За второй год соревнований только три команды достигли лидирующих позиций:
2 сентября 2007 года начался период «последнего звонка» для премии Progress Prize 2007 года. В конкурсе приняли участие более 40 000 команд из 186 стран. У них было тридцать дней, чтобы подать заявки на рассмотрение. В начале этого периода лидирующей командой была BellKor с RMSE 0,8728 (улучшение на 8,26%), за ней следовали Dinosaur Planet (RMSE = 0,8769; улучшение на 7,83%), [12] и Gravity (RMSE = 0,8785; улучшение на 7,66%). В последний час периода последнего звонка первое место заняла работа «KorBell». Оказалось, что это было альтернативное название для Team BellKor. [13]
13 ноября 2007 года команда KorBell (ранее BellKor) была объявлена победителем премии Progress Prize в размере 50 000 долларов США с показателем RMSE 0,8712 (улучшение на 8,43%). [14] Команда состояла из трех исследователей из AT&T Labs : Йехуды Корена, Роберта Белла и Криса Волински. [15] Как и требовалось, они опубликовали описание своего алгоритма. [16]
Премия Progress Prize 2008 была присуждена команде BellKor. Их работа, объединенная с другой командой, BigChaos, достигла RMSE 0,8616 с 207 наборами предикторов. [17] Объединенная команда состояла из двух исследователей из Commendo Research & Consulting GmbH, Андреаса Тёшера и Михаэля Ярера (первоначально команда BigChaos), и трех исследователей из AT&T Labs , Йехуды Корена, Роберта Белла и Криса Волински (первоначально команда BellKor). [18] Как и требовалось, они опубликовали описание своего алгоритма. [19] [20]
Это был последний Progress Prize, поскольку достижение требуемого 1% улучшения по сравнению с Progress Prize 2008 года было бы достаточным для получения Гран-при. Призовые деньги были пожертвованы благотворительным организациям, выбранным победителями.
25 июля 2009 года команда «The Ensemble», слияние команд «Grand Prize Team» и «Opera Solutions and Vandelay United», достигла 10,09% улучшения по сравнению с Cinematch (среднеквадратическая ошибка викторины составила 0,8554). [21] [22]
26 июня 2009 года команда "BellKor's Pragmatic Chaos", слияние команд "Bellkor in BigChaos" и "Pragmatic Theory", достигла 10,05% улучшения по сравнению с Cinematch (Quiz RMSE 0,8558). Затем конкурс Netflix Prize вступил в период "последнего звонка" для Главного приза. В соответствии с Правилами, у команд было тридцать дней, до 26 июля 2009 года 18:42:37 UTC, чтобы подать заявки, которые будут рассмотрены для этого приза. [23]
26 июля 2009 года Netflix прекратил сбор заявок на конкурс Netflix Prize. [24]
Окончательное положение в таблице лидеров на тот момент показало, что две команды соответствовали минимальным требованиям для получения главного приза. «The Ensemble» с 10,10% улучшением по сравнению с Cinematch в квалификационном наборе (среднеквадратическое отклонение викторины 0,8553) и «BellKor's Pragmatic Chaos» с 10,09% улучшением по сравнению с Cinematch в квалификационном наборе (среднеквадратическое отклонение викторины 0,8554). [25] [26] Победителем главного приза должна была стать та, которая показала лучшие результаты в тестовом наборе.
18 сентября 2009 года Netflix объявил команду «BellKor's Pragmatic Chaos» победителем приза (среднеквадратичное отклонение теста составило 0,8567), и приз был вручен команде на церемонии 21 сентября 2009 года. [27] Команда «The Ensemble» показала такой же результат, как и BellKor, но поскольку BellKor представили свои результаты на 20 минут раньше, правила присуждают приз BellKor. [22] [28]
Совместная команда «BellKor's Pragmatic Chaos» состояла из двух австрийских исследователей из Commendo Research & Consulting GmbH, Андреаса Тёшера и Михаэля Ярера (первоначально команда BigChaos), двух исследователей из AT&T Labs , Роберта Белла и Криса Волински, Йехуды Корена из Yahoo! (первоначально команда BellKor) и двух исследователей из Pragmatic Theory, Мартина Пиотта и Мартина Чабберта. [29] По мере необходимости они опубликовали описание своего алгоритма. [30]
Команда, которая, как сообщается, достигла «сомнительных почестей» ( так в оригинале звучит Netflix) с наихудшими среднеквадратичными ошибками в наборах данных викторин и тестов из 44 014 заявок, поданных 5169 командами, — это «Lanterne Rouge» под руководством Дж. М. Линакра, который также был членом команды «The Ensemble».
12 марта 2010 года Netflix объявила, что не будет проводить второй конкурс Prize, который она объявила в августе предыдущего года. Решение было принято в ответ на судебный иск и опасения Федеральной торговой комиссии по поводу конфиденциальности. [31]
Хотя наборы данных были созданы для сохранения конфиденциальности клиентов, премия подверглась критике со стороны защитников конфиденциальности. В 2007 году два исследователя из Техасского университета в Остине ( Виталий Шматиков и Арвинд Нараянан) смогли идентифицировать отдельных пользователей , сопоставив наборы данных с рейтингами фильмов в Internet Movie Database . [32] [33]
17 декабря 2009 года четыре пользователя Netflix подали коллективный иск против Netflix, утверждая, что Netflix нарушил законы США о справедливой торговле и Закон о защите конфиденциальности видео, опубликовав наборы данных. [34] Были публичные дебаты о конфиденциальности участников исследования . 19 марта 2010 года Netflix достиг соглашения с истцами, после чего они добровольно отклонили иск.