stringtranslate.com

Премия Netflix

Премия Netflix представляла собой открытый конкурс на лучший алгоритм совместной фильтрации для прогнозирования пользовательских рейтингов фильмов на основе предыдущих рейтингов без какой-либо другой информации о пользователях или фильмах, то есть без идентификации пользователей, за исключением номеров, присвоенных для конкурса.

Конкурс проводился сервисом потокового видео Netflix , и в нем могли принять участие все, кто не связан с Netflix (нынешние и бывшие сотрудники, агенты, близкие родственники сотрудников Netflix и т. д.), а также не является резидентом определенных заблокированных стран (таких как Куба или Северная Корея). [1] 21 сентября 2009 года главный приз в размере 1 000 000 долларов США был вручен команде BellKor Pragmatic Chaos, которая превзошла собственный алгоритм Netflix для прогнозирования рейтингов на 10,06%. [2]

Проблемы и наборы данных

Netflix предоставил обучающий набор данных из 100 480 507 оценок, которые 480 189 пользователей поставили 17 770 фильмам. Каждый обучающий рейтинг представляет собой четверку вида <user, movie, date of grade, grade>. Поля пользователя и фильма представляют собой целочисленные идентификаторы, а оценки — от 1 до 5 ( целых ) звезд. [3]

Квалификационный набор данных содержит более 2 817 131 троек формы , оценки которых известны только жюри. Алгоритм участвующей команды должен предсказать оценки по всему квалификационному набору, но им сообщаются оценки только для половины данных: набора викторин , состоящего из 1 408 342 оценок. Другая половина — это тестовый набор из 1 408 789, и результаты этого теста используются жюри для определения потенциальных победителей. Только судьи знают, какие рейтинги входят в набор викторин, а какие в тестовый набор - такое расположение предназначено для того, чтобы затруднить подъем на холм в тестовом наборе. Представленные прогнозы сравниваются с истинными оценками в форме среднеквадратической ошибки (RMSE), и цель состоит в том, чтобы максимально уменьшить эту ошибку. Обратите внимание: хотя фактические оценки представляют собой целые числа в диапазоне от 1 до 5, представленные прогнозы не обязательно должны быть такими. Netflix также выявил пробную подгруппу из 1 408 395 оценок в наборе обучающих данных. Наборы пробных , тестовых и тестовых данных были выбраны так , чтобы иметь схожие статистические свойства.<user, movie, date of grade>

Вкратце, данные, использованные в Netflix Prize, выглядят следующим образом:

Для каждого фильма название и год выпуска указаны в отдельном наборе данных. Никакой информации о пользователях не предоставляется вообще. Чтобы защитить конфиденциальность клиентов, «некоторые рейтинговые данные для некоторых клиентов в обучающем и квалификационном наборах были намеренно изменены одним или несколькими из следующих способов: удалением рейтингов; вставкой альтернативных рейтингов и дат; и изменением рейтинга. даты». [2]

Обучающий набор построен таким образом, что средний пользователь оценил более 200 фильмов, а средний фильм оценили более 5000 пользователей. Но данные сильно разнятся : некоторые фильмы в обучающей выборке имеют всего 3 рейтинга [4] , в то время как один пользователь оценил более 17 000 фильмов. [5]

Были некоторые разногласия относительно выбора RMSE в качестве определяющего показателя. Утверждалось, что даже такое небольшое улучшение, как 1% RMSE, приводит к значительной разнице в рейтинге «топ-10» наиболее рекомендуемых пользователю фильмов. [6]

Призы

Призы основывались на улучшении собственного алгоритма Netflix, называемого Cinematch , или за результат предыдущего года, если команда добилась улучшения, превышающего определенный порог. Тривиальный алгоритм, который прогнозирует для каждого фильма в наборе викторины его среднюю оценку на основе обучающих данных, дает RMSE 1,0540. Cinematch использует «простые статистические линейные модели с большим количеством обработки данных». [7]

Используя только обучающие данные, Cinematch получает RMSE 0,9514 для данных викторины, что примерно на 10 % лучше, чем у тривиального алгоритма. Cinematch на тестовом наборе показал аналогичную производительность — 0,9525. Чтобы выиграть главный приз в размере 1 000 000 долларов США, участвующей команде пришлось улучшить этот показатель еще на 10%, чтобы достичь 0,8572 на тестовом наборе. [2] Такое улучшение набора тестов соответствует RMSE 0,8563.

Пока ни одна команда не выиграла главный приз, каждый год за лучший результат на данный момент присуждается приз в размере 50 000 долларов США. Однако, чтобы выиграть этот приз, алгоритм должен был улучшить RMSE в наборе викторин как минимум на 1% по сравнению с предыдущим победителем приза за прогресс (или над Cinematch в первый год). Если ни одна заявка не будет успешной, премия за прогресс в этом году не присуждается.

Чтобы выиграть прогресс или главный приз, участник должен был предоставить исходный код и описание алгоритма жюри в течение одной недели после обращения к нему. После проверки победитель также должен был предоставить Netflix неисключительную лицензию. Netflix опубликует только описание, а не исходный код системы. (Чтобы сохранить в секрете свой алгоритм и исходный код, команда могла отказаться претендовать на приз.) Жюри также держало свои прогнозы в секрете от других участников. Команда может отправить столько попыток предсказать оценки, сколько пожелает. Первоначально подача заявок была ограничена разом в неделю, но вскоре интервал был изменен до одного раза в день. Лучшая подача команды на данный момент засчитывается как ее текущая подача.

Как только одной из команд удавалось улучшить RMSE на 10% или более, жюри делало последний звонок , давая всем командам 30 дней на отправку своих заявок. Только тогда у команды, представившей лучшую заявку, запросили описание алгоритма, исходный код и неисключительную лицензию, и после успешной проверки; объявлен обладателем главного приза.

Конкурс продлится до тех пор, пока не будет объявлен обладатель главного приза. Если бы главный приз никто не получил, он бы длился как минимум пять лет (до 2 октября 2011 года). После этой даты конкурс мог быть прекращен в любое время по собственному усмотрению Netflix.

Прогресс с годами

Соревнование началось 2 октября 2006 года. К 8 октября команда WXYZConsulting уже превзошла результаты Cinematch. [8]

К 15 октября три команды обыграли Cinematch, одна из них на 1,06%, что достаточно, чтобы претендовать на ежегодный приз прогресса. [9] К июню 2007 года для участия в соревновании зарегистрировались более 20 000 команд из более чем 150 стран. 2000 команд представили более 13 000 наборов прогнозов. [3]

В течение первого года соревнований несколько лидеров поменялись первыми местами. Наиболее известными из них были: [10]

12 августа 2007 года множество участников собрались на KDD Cup and Workshop 2007, проходившем в Сан-Хосе, Калифорния . [11] Во время семинара все четыре лучшие команды в таблице лидеров на тот момент представили свои методы. Команда из IBM Research — Ян Лю, Сахарон Россет, Клаудия Перлич и Женьчжэнь Коу — заняла третье место в задании 1 и первое место в задании 2.

За второй год соревнований на лидирующие позиции вышли только три команды:

Премия Прогресса 2007 г.

2 сентября 2007 г. конкурс вступил в период «последнего звонка» на премию «Прогресс 2007». В конкурсе приняли участие более 40 000 команд из 186 стран. У них было тридцать дней на подачу предложений на рассмотрение. В начале этого периода лидирующей командой была BellKor со RMSE 0,8728 (улучшение на 8,26%), за ней следовали Dinosaur Planet (RMSE = 0,8769; улучшение на 7,83%) [12] и Gravity (RMSE = 0,8785; улучшение на 7,66%). ). В последний час последнего звонка первое место заняла работа "КорБелл". Оказалось, что это альтернативное название команды BellKor. [13]

13 ноября 2007 года команда KorBell (ранее BellKor) была объявлена ​​победителем премии Progress Prize в размере 50 000 долларов США со RMSE 0,8712 (улучшение на 8,43%). [14] В состав команды входили три исследователя из AT&T Labs : Иегуда Корен, Роберт Белл и Крис Волинский. [15] По требованию они опубликовали описание своего алгоритма. [16]

Премия Прогресса 2008 г.

Премию «Прогресс 2008» получила команда BellKor. Их работа в сочетании с другой командой BigChaos достигла RMSE 0,8616 с 207 наборами предикторов. [17] В состав совместной группы входили два исследователя из Commendo Research & Consulting GmbH, Андреас Тёшер и Михаэль Ярер (первоначально команда BigChaos) и три исследователя из AT&T Labs , Иегуда Корен, Роберт Белл и Крис Волинский (первоначально команда BellKor). [18] По требованию они опубликовали описание своего алгоритма. [19] [20]

Это была последняя премия за прогресс, поскольку достижения необходимого улучшения на 1% по сравнению с премией за прогресс 2008 года было бы достаточно, чтобы претендовать на главный приз. Призовые деньги были переданы благотворительным организациям, выбранным победителями.

2009 год

25 июля 2009 года команда «The Ensemble», образовавшаяся в результате слияния команд «Grand Prize Team» и «Opera Solutions и Vandelay United», добилась улучшения на 10,09% по сравнению с Cinematch (RMSE викторины 0,8554). [21] [22]

26 июня 2009 года команда «BellKor's Pragmatic Chaos», образовавшаяся в результате слияния команд «Bellkor in BigChaos» и «Pragmatic Theory», добилась улучшения на 10,05% по сравнению с Cinematch (RMSE викторины 0,8558). Затем конкурс Netflix Prize вступил в период «последнего звонка» для получения главного приза. В соответствии с Правилами, у команд было тридцать дней, до 26 июля 2009 г., 18:42:37 UTC, чтобы подать заявки, которые будут рассматриваться для получения этого Приза. [23]

26 июля 2009 года Netflix прекратил сбор заявок на конкурс Netflix Prize. [24]

Окончательное положение таблицы лидеров на тот момент показало, что две команды соответствуют минимальным требованиям для получения главного приза. «Ансамбль» с улучшением на 10,10% по сравнению с Cinematch в квалификационном наборе (RMSE викторины 0,8553) и «Прагматический хаос BellKor» с улучшением на 10,09% по сравнению с Cinematch в квалификационном наборе (RMSE викторины 0,8554). [25] [26] Победителем главного приза должен был стать тот, кто покажет лучшие результаты на тестовом наборе.

18 сентября 2009 года Netflix объявил команду BellKor's Pragmatic Chaos победителем (тестовое RMSE 0,8567), и приз был вручен команде на церемонии 21 сентября 2009 года. [27] «Ансамбль» Команда совпала с результатом BellKor, но, поскольку BellKor представила свои результаты на 20 минут раньше, по правилам приз присуждается BellKor. [22] [28]

В состав совместной команды «Прагматический хаос BellKor» вошли два австрийских исследователя из Commendo Research & Consulting GmbH, Андреас Тёшер и Михаэль Ярер (первоначально команда BigChaos), два исследователя из AT&T Labs , Роберт Белл и Крис Волинский, Иегуда Корен из Yahoo! (первоначально команда BellKor) и два исследователя из Pragmatic Theory, Мартин Пиотт и Мартин Шабберт. [29] По требованию они опубликовали описание своего алгоритма. [30]

Сообщается, что команда получила «сомнительную награду» ( sic Netflix) худших RMSE в наборах данных викторин и тестов . Из 44 014 заявок, поданных 5 169 командами, была «Lanterne Rouge» во главе с Дж. М. Линакром, который также был участник коллектива «Ансамбль».

Отменённое продолжение

12 марта 2010 года Netflix объявил, что не будет проводить второй конкурс премии, о котором он объявил в августе прошлого года. Решение было принято в ответ на судебный иск и опасения Федеральной торговой комиссии по конфиденциальности. [31]

Проблемы конфиденциальности

Хотя наборы данных были созданы для сохранения конфиденциальности клиентов, Премия подверглась критике со стороны защитников конфиденциальности. В 2007 году два исследователя из Техасского университета в Остине смогли идентифицировать отдельных пользователей , сопоставив наборы данных с рейтингами фильмов в базе данных фильмов в Интернете . [32] [33]

17 декабря 2009 года четыре пользователя Netflix подали коллективный иск против Netflix, утверждая, что Netflix нарушил законы США о справедливой торговле и Закон о защите конфиденциальности видео , выпустив наборы данных. [34] В обществе обсуждались вопросы конфиденциальности участников исследования . 19 марта 2010 года Netflix достигла мирового соглашения с истцами, после чего они добровольно отклонили иск.

Смотрите также

Рекомендации

  1. ^ «Правила премии Netflix» (PDF) . Архивировано из оригинала (PDF) 10 мая 2020 г. Проверено 6 ноября 2019 г.
  2. ^ abc «Приз Netflix». Архивировано из оригинала 24 сентября 2009 г. Проверено 9 июля 2012 г.
  3. ^ аб Джеймс Беннетт; Стэн Лэннинг (12 августа 2007 г.). «Приз Netflix» (PDF) . Материалы Кубка и Семинара KDD 2007 . Архивировано из оригинала (PDF) 27 сентября 2007 года . Проверено 25 августа 2007 г.
  4. ^ Сигмовидная кривая (08 октября 2006 г.). "Мисс Конгениальность". Форум премии Netflix . Архивировано из оригинала 6 февраля 2012 г. Проверено 25 августа 2007 г.
  5. ^ потрясающе (06.10.2006). «Один клиент, который оценил 17 000 фильмов». Форум премии Netflix . Архивировано из оригинала 06 февраля 2012 г. Проверено 25 августа 2007 г.
  6. ^ ИегудаКорен (18 декабря 2007 г.). «Насколько полезно более низкое RMSE?». Форум премии Netflix . Архивировано из оригинала 6 февраля 2012 г.
  7. ^ «Часто задаваемые вопросы о премии Netflix» . Архивировано из оригинала 21 августа 2007 г. Проверено 21 августа 2007 г.
  8. ^ "Рейтинг премий Netflix" . Взлом NetFlix . 9 октября 2006 г. Архивировано из оригинала 30 октября 2006 г. Проверено 21 августа 2007 г.
  9. ^ «Приз Netflix (я пытался сопротивляться, но...)» . Блог Юхо Снеллмана . 15 октября 2006 года . Проверено 21 августа 2007 г.
  10. ^ «Таблица главных претендентов на премию Progress Prize 2007» .
  11. ^ "Кубок и семинар KDD 2007" .
  12. ^ "Планета динозавров". 08.12.2022.
  13. ^ администратор (28 августа 2022 г.). «Прагматический хаос BellKor за считанные минуты выиграл приз Netflix в 1 миллион долларов» . Численность населения . Проверено 28 августа 2022 г.
  14. ^ Призмастер (13 ноября 2007 г.). «Премия Netflix Progress Prize 2007 присуждена команде KorBell». Форум премии Netflix . Архивировано из оригинала 6 февраля 2012 г.
  15. ^ «Приз за прогресс в размере 50 000 долларов вручается в первую годовщину премии Netflix в 1 миллион долларов» . Нетфликс .
  16. ^ Р. Белл; Ю. Корен; С. Волинский (2007). «Решение BellKor для премии Netflix». CiteSeerX 10.1.1.142.9009 . 
  17. ^ Роберт Белл; Иегуда Корен; Крис Волинский (10 декабря 2008 г.). «Решение BellKor 2008 для премии Netflix» (PDF) . Форум премии Netflix .
  18. ^ «Netflix вручает премию за прогресс в размере 50 000 долларов во втором году многолетнего многонационального конкурса премий Netflix» . Архивировано из оригинала 30 июня 2009 г. Проверено 22 июня 2009 г.
  19. ^ А. Тёшер; М. Ярер (2008). «Решение BigChaos для премии Netflix 2008» (PDF) . Архивировано из оригинала (PDF) 16 февраля 2012 г. Проверено 24 июня 2009 г.
  20. ^ Р. Белл; Ю. Корен; С. Волинский (2008). «Решение BellKor для премии Netflix 2008» (PDF) . Архивировано из оригинала (PDF) 16 февраля 2012 г. Проверено 24 июня 2009 г.
  21. ^ "Ансамбль". 08.12.2022. Архивировано из оригинала 27 декабря 2014 г.
  22. ^ ab «Таблица лидеров премии Netflix». 26 июля 2009 г. Архивировано из оригинала 13 декабря 2013 г. Проверено 9 декабря 2013 г.
  23. ^ "Прагматический хаос BellKor". 26 июня 2009 г.
  24. ^ «Конкурс закрыт». 26 июля 2009 г. Архивировано из оригинала 28 июля 2009 г. Проверено 27 июля 2009 г.
  25. ^ Лестер Макки (08 декабря 2022 г.). «Обратный отсчет окончательного представления». Архивировано из оригинала 27 декабря 2014 г.
  26. ^ «Приз Netflix приходит к громкому финалу» . 26 июля 2009 г.
  27. ^ "Гран-при вручен команде BellKor's Pragmatic Chaos" . Форум премии Netflix. 21 сентября 2009 г. Архивировано из оригинала 7 мая 2012 г.
  28. ^ Стив Лор (21 сентября 2009 г.). «Исследовательская сделка на 1 миллион долларов для Netflix и, возможно, модель для других». Газета "Нью-Йорк Таймс .
  29. ^ «Netflix вручает премию Netflix в 1 миллион долларов и объявляет второй конкурс на 1 миллион долларов» . Архивировано из оригинала 25 сентября 2009 г. Проверено 24 сентября 2009 г.
  30. ^ Андреас Тёшер и Майкл Ярер (5 сентября 2009 г.). «Решение BigChaos для главного приза Netflix» (PDF) . коммендо исследования и консалтинг . Проверено 2 ноября 2022 г.
  31. ^ "Обновление премии Netflix" . Форум премии Netflix. 12 марта 2010 г.
  32. ^ Нарайанан, Арвинд; Шматиков, Виталий (2006). «Как нарушить анонимность набора данных о призах Netflix». arXiv : cs/0610105 .
  33. Демерджян, Дэйв (15 марта 2007 г.). «Восстание хакеров Netflix». проводной.com . Проводной . Проверено 13 декабря 2014 г.
  34. ^ Сингел, Райан. «Netflix раскрыл секрет вашей Горбатой горы, иск» . Проводной . Проверено 11 августа 2017 г.

Внешние ссылки