stringtranslate.com

Лемма Джонсона–Линденштрауса

В математике лемма Джонсона–Линденштрауса — это результат, названный в честь Уильяма Б. Джонсона и Джорама Линденштрауса , касающийся вложений точек из многомерного в маломерное евклидово пространство с малым искажением . Лемма утверждает, что множество точек в многомерном пространстве может быть вложено в пространство гораздо меньшей размерности таким образом, что расстояния между точками почти сохраняются . В классическом доказательстве леммы вложение представляет собой случайную ортогональную проекцию .

Лемма имеет приложения в сжатом считывании , многообразном обучении , уменьшении размерности , встраивании графов и обработке естественного языка . Большая часть данных, хранящихся и обрабатываемых на компьютерах, включая текст и изображения, может быть представлена ​​в виде точек в многомерном пространстве (см. модель векторного пространства для случая текста). Однако основные алгоритмы для работы с такими данными, как правило, очень быстро становятся неэффективными по мере увеличения размерности. [1] Поэтому желательно уменьшать размерность данных таким образом, чтобы сохранить их соответствующую структуру.

Лемма, вероятно, объясняет, как большие языковые модели (LLM), такие как трансформаторы, способны представлять очень тонкие значения слов и контекст в относительно низкоразмерных вложениях. [2]

Лемма

При наличии , набора точек в и целого числа , [3] существует линейное отображение такое, что

для всех .

Формулу можно переписать:

В качестве альтернативы, для любого и любого целого числа [Примечание 1] существует линейная функция , такая что ограничение является - билипшицевым . [Примечание 2]

Кроме того, лемма точна с точностью до постоянного множителя, т.е. существует множество точек размера m, требующее размерности

для того, чтобы сохранить расстояния между всеми парами точек с точностью до . [4] [5]

Классическое доказательство леммы берет скалярное кратное ортогональной проекции на случайное подпространство размерности в . Ортогональная проекция схлопывает некоторые измерения пространства, к которому она применяется, что уменьшает длину всех векторов, а также расстояние между векторами в пространстве. В условиях леммы концентрация меры гарантирует, что существует ненулевой шанс того, что случайная ортогональная проекция уменьшит попарные расстояния между всеми точками в примерно на постоянный множитель . Поскольку шанс ненулевой, такие проекции должны существовать, поэтому мы можем выбрать одну и установить .

Чтобы получить проекцию алгоритмически, достаточно с высокой вероятностью многократно выбирать ортогональные матрицы проекции случайным образом. Если вы продолжите бросать кости, вы в конечном итоге получите одну за полиномиальное случайное время.

Альтернативное заявление

Связанная лемма — это распределительная лемма JL. Эта лемма утверждает, что для любого и положительного целого числа существует распределение по , из которого выводится матрица , такая, что для и для любого вектора единичной длины справедливо следующее утверждение. [6]

Можно получить лемму JL из распределительной версии, установив и для некоторой пары u , v оба в X. Тогда лемма JL следует из объединения, ограниченного по всем таким парам.

Ускорение преобразования JL

При наличии A вычисление произведения матрицы-вектора занимает время. Была проведена некоторая работа по получению распределений, для которых произведение матрицы-вектора можно вычислить за меньшее время.

Существует два основных направления работы. Первое, быстрое преобразование Джонсона-Линденштрауса (FJLT), [7] было введено Эйлоном и Шазеллом в 2006 году. Этот метод позволяет вычислять произведение матрицы-вектора всего за для любой константы .

Другой подход заключается в построении распределения, поддерживаемого разреженными матрицами. [8] Этот метод позволяет сохранить только часть записей в матрице, что означает, что вычисление может быть выполнено за короткое время. Кроме того, если вектор имеет только ненулевые записи, разреженный JL занимает время , которое может быть намного меньше времени, используемого быстрым JL.

Тензорные случайные проекции

Можно объединить две матрицы JL, взяв так называемое произведение граней , которое определяется как тензорное произведение строк (было предложено В. Слюсарем [9] в 1996 г. [10] [11] [12] [ 13] [14] для приложений радаров и цифровых антенных решеток ). Более конкретно, пусть и будут двумя матрицами. Тогда произведение граней будет [10] [11] [12] [13] [14]

Эта идея тензоризации была использована Касивисванатаном и др. для дифференциальной конфиденциальности . [15]

Матрицы JL, определенные таким образом, используют меньше случайных битов и могут быть быстро применены к векторам, имеющим тензорную структуру, благодаря следующему тождеству: [12]

,

где — поэлементное ( Адамара ) произведение. Такие вычисления использовались для эффективного вычисления полиномиальных ядер и многих других алгоритмов линейной алгебры [ необходимо разъяснение ] . [16]

В 2020 году [17] было показано, что если матрицы являются независимыми или гауссовыми, то объединенная матрица удовлетворяет распределительной лемме JL, если число строк не менее

.

Для больших это так же хорошо, как полностью случайный Джонсон-Линденштраус, но соответствующая нижняя граница в той же статье показывает, что эта экспоненциальная зависимость от необходима. Предлагаются альтернативные конструкции JL, чтобы обойти это.

Смотрите также

Примечания

  1. ^ Или любое целое число
  2. ^ Этот результат следует из результата выше. Эскиз доказательства: Обратите внимание и для всех . Проведите работу для 1= m и 1< m , применяя результат выше в последнем случае, отметив

Ссылки

  1. ^ Например, говоря о поиске ближайшего соседа в многомерных наборах данных, Джон Клейнберг пишет: «Более сложные алгоритмы обычно достигают времени запроса, логарифмического по n, за счет экспоненциальной зависимости от размерности d ; действительно, даже анализ среднего случая эвристик, таких как деревья kd, выявляет экспоненциальную зависимость от d во времени запроса». Клейнберг, Джон М. (1997), «Два алгоритма поиска ближайшего соседа в многомерных наборах данных», Труды двадцать девятого ежегодного симпозиума ACM по теории вычислений , STOC '97, Нью-Йорк, США: ACM, стр. 599–608, doi : 10.1145/258533.258653 , ISBN 0-89791-888-6.
  2. ^ Хардт, Мориц. "Вложения слов: объяснение их свойств". Вне выпуклого пути . Получено 10 октября 2024 г.
  3. ^ Фернандес-Гранда, Карлос. «Конспекты лекций 5: Случайные прогнозы» (PDF) . п. 6. Лемма 2.6 (лемма Джонсона-Линденштрауса)
  4. ^ Ларсен, Каспер Грин; Нельсон, Джелани (2017), «Оптимальность леммы Джонсона-Линденштрауса», Труды 58-го ежегодного симпозиума IEEE по основам компьютерной науки (FOCS) , стр. 633–638, arXiv : 1609.02094 , doi : 10.1109/FOCS.2017.64, ISBN 978-1-5386-3464-6, S2CID  16745
  5. ^ Нильсен, Франк (2016), «10. Быстрая приближенная оптимизация в больших размерностях с наборами ядер и быстрым сокращением размерности», Введение в HPC с MPI для науки о данных, Springer, стр. 259–272, ISBN 978-3-319-21903-5
  6. ^ Джонсон, Уильям Б .; Линденштраус, Джорам (1984), «Расширения липшицевых отображений в гильбертово пространство», в Beals, Ричард; Бек, Анатоль; Беллоу, Александра; и др. (ред.), Конференция по современному анализу и вероятности (Нью-Хейвен, Коннектикут, 1982) , Contemporary Mathematics, т. 26, Провиденс, Род-Айленд: Американское математическое общество, стр. 189–206, doi :10.1090/conm/026/737400, ISBN 0-8218-5030-X, MR  0737400, S2CID  117819162
  7. ^ Ailon, Nir; Chazelle, Bernard (2006), «Приблизительные ближайшие соседи и быстрое преобразование Джонсона–Линденштрауса», Труды 38-го ежегодного симпозиума ACM по теории вычислений , Нью-Йорк: ACM Press, стр. 557–563, doi :10.1145/1132516.1132597, ISBN 1-59593-134-1, MR  2277181, S2CID  490517
  8. ^ Кейн, Дэниел М.; Нельсон, Джелани (2014), «Преобразования Спарсера Джонсона-Линденштрауса», Журнал ACM , 61 (1): 1, arXiv : 1012.1577 , doi : 10.1145/2559902, MR  3167920, S2CID  7821848. Предварительная версия этой статьи была опубликована в Трудах Двадцать третьего ежегодного симпозиума ACM-SIAM по дискретным алгоритмам , 2012.
  9. ^ Эстеве, Анна; Бой, Ева; Фортиана, Хосеп (2009), «Условия взаимодействия в регрессии на основе расстояния», Communications in Statistics , 38 (18–20): 3498–3509, doi :10.1080/03610920802592860, MR  2589790, S2CID  122303508
  10. ^ ab Слюсарь, VI (27 декабря 1996 г.), "Конечные продукты в матрицах в радиолокационных приложениях". (PDF) , Радиоэлектроника и системы связи , 41 (3): 50–53
  11. ^ ab Слюсарь, В.И. (1997-05-20), "Аналитическая модель цифровой антенной решетки на основе произведений матриц гранеразделения". (PDF) , Труды ICATT-97, Киев : 108–109
  12. ^ abc Слюсар, В.И. (1997-09-15), "Новые операции произведения матриц для приложений радаров" (PDF) , Труды Прямые и обратные задачи теории электромагнитных и акустических волн (ДИПЭД-97), Львов. : 73–74
  13. ^ ab Слюсарь, В.И. (13 марта 1998 г.), "Семейство граневых произведений матриц и его свойства" (PDF) , Кибернетика и системный анализ Ц/К Кибернетика и системный анализ.- 1999. , 35 (3): 379–384, doi :10.1007/BF02733426, S2CID  119661450
  14. ^ ab Слюсарь, В.И. (2003), "Обобщенные фейс-произведения матриц в моделях цифровых антенных решеток с неидентичными каналами" (PDF) , Радиоэлектроника и системы связи , 46 (10): 9–17
  15. ^ Касивисванатан, Шива Прасад; Рудельсон, Марк; Смит, Адам Д.; Ульман, Джонатан Р. (2010), «Цена частного выпуска таблиц сопряженности и спектры случайных матриц с коррелированными строками», в Шульман, Леонард Дж. (ред.), Труды 42-го симпозиума ACM по теории вычислений, STOC 2010, Кембридж, Массачусетс, США, 5–8 июня 2010 г. , Ассоциация вычислительной техники, стр. 775–784, doi :10.1145/1806689.1806795, ISBN 978-1-4503-0050-6, ОСТИ  990798, S2CID  5714334
  16. ^ Вудрафф, Дэвид П. (2014), Эскиз как инструмент для численной линейной алгебры , Основы и тенденции в теоретической информатике, т. 10, arXiv : 1411.4357 , doi : 10.1561/0400000060, MR  3285427, S2CID  51783444
  17. ^ Ахле, Томас; Капралов, Майкл; Кнудсен, Якоб; Паг, Расмус ; Велинкер, Амейя; Вудрафф, Дэвид; Занди, Амир (2020), «Забывчивое рисование многочленных ядер высокой степени», Симпозиум ACM-SIAM по дискретным алгоритмам , Ассоциация вычислительной техники, стр. 141–160, arXiv : 1909.01410 , doi : 10.1137/1.9781611975994.9 , ISBN 978-1-61197-599-4

Дальнейшее чтение