stringtranslate.com

Машинное обучение

Машинное обучение ( МО ) — это область исследований в области искусственного интеллекта , связанная с разработкой и изучением статистических алгоритмов , которые могут учиться на данных и обобщать их на невидимые данные и, таким образом, выполнять задачи без явных инструкций. [1] В последнее время генеративные искусственные нейронные сети смогли превзойти по производительности многие предыдущие подходы. [2] [3]

Подходы машинного обучения применяются во многих областях, включая большие языковые модели , компьютерное зрение , распознавание речи , фильтрацию электронной почты , сельское хозяйство и медицину, где разработка алгоритмов для выполнения необходимых задач обходится слишком дорого. [4] [5] Машинное обучение известно в своем применении для решения бизнес-задач под названием прогнозная аналитика . Хотя не все машинное обучение основано на статистике, вычислительная статистика является важным источником методов в этой области.

Математические основы ML обеспечивают методы математической оптимизации (математического программирования). Интеллектуальный анализ данных — это смежная (параллельная) область исследований, в которой основное внимание уделяется исследовательскому анализу данных посредством обучения без учителя . [7] [8] С теоретической точки зрения Вероятно, приблизительно правильное обучение обеспечивает основу для описания машинного обучения.

История и связи с другими областями

Термин «машинное обучение» был придуман в 1959 году Артуром Сэмюэлем , сотрудником IBM и пионером в области компьютерных игр и искусственного интеллекта . [9] [10] В этот период также использовался синоним «самообучающиеся компьютеры» . [11] [12]

Хотя самая ранняя модель машинного обучения была представлена ​​в 1950-х годах, когда Артур Сэмюэл изобрел программу, которая рассчитывала шансы на победу в шашках для каждой стороны, история машинного обучения уходит корнями в десятилетия человеческого желания и усилий по изучению человеческих когнитивных процессов. [13] В 1949 году канадский психолог Дональд Хебб опубликовал книгу «Организация поведения» , в которой представил теоретическую нервную структуру , образующуюся в результате определенных взаимодействий между нервными клетками . [14] Модель Хебба нейронов, взаимодействующих друг с другом, заложила основу для того, как ИИ и алгоритмы машинного обучения работают в узлах или искусственных нейронах, используемых компьютерами для передачи данных. [13] Другие исследователи, изучавшие когнитивные системы человека, также внесли свой вклад в современные технологии машинного обучения, в том числе логик Уолтер Питтс и Уоррен Маккалок , которые предложили ранние математические модели нейронных сетей для создания алгоритмов, отражающих мыслительные процессы человека. [13]

К началу 1960-х годов компания Raytheon разработала экспериментальную «обучающуюся машину» с перфолентной памятью под названием «Кибертрон» для анализа сигналов сонара , электрокардиограмм и моделей речи с использованием элементарного обучения с подкреплением . Человек-оператор/учитель неоднократно «обучал» его распознавать шаблоны и оснащал кнопкой « лох », заставляющей его переоценивать неправильные решения. [15] Характерной книгой по исследованиям в области машинного обучения в 1960-х годах была книга Нильссона «Обучающиеся машины», посвященная в основном машинному обучению для классификации образов. [16] Интерес, связанный с распознаванием образов, продолжался и в 1970-е годы, как описано Дуда и Хартом в 1973 году. [17] В 1981 году был представлен отчет об использовании стратегий обучения, позволяющих искусственной нейронной сети научиться распознавать 40 символов (26 букв, 10 цифр и 4 специальных символа) с компьютерного терминала. [18]

Том М. Митчелл дал широко цитируемое, более формальное определение алгоритмов, изучаемых в области машинного обучения: «Говорят, что компьютерная программа учится на основе опыта E в отношении некоторого класса задач T и показателя производительности P , если ее производительность при выполнении задач уровень T , измеряемый P , улучшается с опытом E ». [19] Такое определение задач, связанных с машинным обучением, предлагает фундаментально практическое определение , а не определение области в когнитивных терминах. Это следует за предложением Алана Тьюринга в его статье « Вычислительная техника и интеллект », в котором вопрос «Могут ли машины думать?» заменяется вопросом «Могут ли машины делать то, что можем мы (как мыслящие существа)?». [20]

Современное машинное обучение преследует две цели: одна — классифицировать данные на основе разработанных моделей, другая — прогнозировать будущие результаты на основе этих моделей. Гипотетический алгоритм, предназначенный для классификации данных, может использовать компьютерное зрение родинок в сочетании с контролируемым обучением, чтобы научить его классифицировать раковые родинки. Алгоритм машинного обучения для торговли акциями может информировать трейдера о будущих потенциальных прогнозах. [21]

Искусственный интеллект

Машинное обучение как область ИИ [22]

Как научная деятельность, машинное обучение возникло в результате поисков искусственного интеллекта (ИИ). На заре ИИ как академической дисциплины некоторые исследователи были заинтересованы в том, чтобы машины учились на данных. Они пытались подойти к проблеме с помощью различных символических методов, а также того, что тогда называлось « нейронными сетями »; в основном это были перцептроны и другие модели , которые позже оказались переосмыслением обобщенных линейных моделей статистики. [23] Вероятностные рассуждения также использовались, особенно в автоматизированной медицинской диагностике . [24] : 488 

Однако растущее внимание к логическому, основанному на знаниях подходу привело к расколу между ИИ и машинным обучением. Вероятностные системы столкнулись с теоретическими и практическими проблемами сбора и представления данных. [24] : 488  К 1980 году экспертные системы стали доминировать в области ИИ, а статистика вышла из моды. [25] Работа над символическим/основанным на знаниях обучением продолжалась в рамках ИИ, что привело к индуктивному логическому программированию , но более статистическое направление исследований теперь вышло за рамки собственно ИИ, в распознавании образов и поиске информации . [24] : 708–710, 755  Исследования нейронных сетей были прекращены искусственным интеллектом и информатикой примерно в одно и то же время. Эта линия также была продолжена за пределами области AI/CS, как « коннекционизм », исследователями других дисциплин, включая Хопфилда , Румельхарта и Хинтона . Их главный успех пришелся на середину 1980-х годов, когда они заново изобрели метод обратного распространения ошибки . [24] : 25 

Машинное обучение (МО), реорганизованное и признанное отдельной областью, начало процветать в 1990-х годах. Эта область изменила свою цель с достижения искусственного интеллекта на решение решаемых проблем практического характера. Он сместил акцент с символических подходов , унаследованных от ИИ, на методы и модели, заимствованные из статистики, нечеткой логики и теории вероятностей . [25]

Сбор данных

Машинное обучение и интеллектуальный анализ данных часто используют одни и те же методы и значительно пересекаются, но в то время как машинное обучение фокусируется на прогнозировании на основе известных свойств, полученных из обучающих данных, интеллектуальный анализ данных фокусируется на обнаружении (ранее) неизвестных свойств в данных (это этап анализа обнаружения знаний в базах данных). В интеллектуальном анализе данных используется множество методов машинного обучения, но с разными целями; с другой стороны, машинное обучение также использует методы интеллектуального анализа данных в качестве « обучения без учителя » или в качестве этапа предварительной обработки для повышения точности обучаемого. Большая часть путаницы между этими двумя исследовательскими сообществами (которые часто проводят отдельные конференции и отдельные журналы, главным исключением является ECML PKDD ) связана с базовыми предположениями, с которыми они работают: в машинном обучении производительность обычно оценивается по способности воспроизводить известные знания, тогда как в обнаружении знаний и интеллектуальном анализе данных (KDD) ключевой задачей является обнаружение ранее неизвестных знаний. При оценке по известным знаниям неинформированный (неконтролируемый) метод легко превосходит другие контролируемые методы, в то время как в типичной задаче KDD контролируемые методы не могут быть использованы из-за отсутствия обучающих данных.

Машинное обучение также тесно связано с оптимизацией : многие задачи обучения формулируются как минимизация некоторой функции потерь на обучающем наборе примеров. Функции потерь выражают несоответствие между предсказаниями обучаемой модели и реальными экземплярами проблемы (например, при классификации требуется присвоить экземплярам метку, а модели обучаются правильно прогнозировать заранее присвоенные метки набора Примеры). [26]

Обобщение

Разница между оптимизацией и машинным обучением возникает из-за цели обобщения : хотя алгоритмы оптимизации могут минимизировать потери в обучающем наборе, машинное обучение направлено на минимизацию потерь на невидимых выборках. Характеристика обобщения различных алгоритмов обучения является активной темой текущих исследований, особенно алгоритмов глубокого обучения .

Статистика

Машинное обучение и статистика — это тесно связанные области с точки зрения методов, но различающиеся по своей основной цели: статистика делает выводы о численности населения на основе выборки , а машинное обучение находит обобщаемые прогнозные закономерности. [27] По словам Майкла И. Джордана , идеи машинного обучения, от методологических принципов до теоретических инструментов, имеют долгую предысторию в статистике. [28] Он также предложил термин «наука о данных» в качестве заполнителя для обозначения всей области. [28]

Традиционный статистический анализ требует априорного выбора модели, наиболее подходящей для набора данных исследования. Кроме того, в анализ включаются только значимые или теоретически значимые переменные, основанные на предыдущем опыте. Напротив, машинное обучение не строится на заранее структурированной модели; скорее, данные формируют модель, обнаруживая основные закономерности. Чем больше переменных (входных данных) используется для обучения модели, тем точнее будет конечная модель. [29]

Лео Брейман выделил две парадигмы статистического моделирования: модель данных и алгоритмическую модель, [30] где «алгоритмическая модель» означает более или менее алгоритмы машинного обучения, такие как Random Forest .

Некоторые статистики переняли методы машинного обучения, что привело к созданию объединенной области, которую они называют статистическим обучением . [31]

Статистическая физика

Аналитические и вычислительные методы, основанные на глубоко укоренившейся физике неупорядоченных систем, могут быть распространены на крупномасштабные проблемы, включая машинное обучение, например, для анализа весового пространства глубоких нейронных сетей . [32] Таким образом, статистическая физика находит применение в области медицинской диагностики . [33]

Теория

Основная цель учащегося – обобщить свой опыт. [6] [34] Обобщением в этом контексте является способность обучающейся машины точно выполнять новые, невидимые примеры/задачи после изучения набора обучающих данных. Обучающие примеры взяты из некоторого, как правило, неизвестного распределения вероятностей (считающегося репрезентативным для пространства событий), и учащийся должен построить общую модель этого пространства, которая позволит ему давать достаточно точные прогнозы в новых случаях.

Вычислительный анализ алгоритмов машинного обучения и их производительности — это раздел теоретической информатики, известный как теория вычислительного обучения, с использованием модели «вероятно приблизительно правильного обучения» (PAC). Поскольку обучающие наборы конечны, а будущее неопределенно, теория обучения обычно не дает гарантий производительности алгоритмов. Вместо этого довольно распространены вероятностные границы производительности. Разложение систематической ошибки на дисперсию является одним из способов количественной оценки ошибки обобщения .

Для наилучшей производительности в контексте обобщения сложность гипотезы должна соответствовать сложности функции, лежащей в основе данных. Если гипотеза менее сложна, чем функция, то модель недостаточно подогнала данные. Если в ответ увеличить сложность модели, то ошибка обучения уменьшится. Но если гипотеза слишком сложна, модель может быть переобучена, и обобщение будет хуже. [35]

Помимо границ производительности, теоретики обучения изучают временную сложность и осуществимость обучения. В теории вычислительного обучения вычисление считается возможным, если оно может быть выполнено за полиномиальное время . Существует два типа результатов по временной сложности : Положительные результаты показывают, что определенный класс функций можно изучить за полиномиальное время. Отрицательные результаты показывают, что некоторые классы невозможно изучить за полиномиальное время.

Подходы

Подходы к машинному обучению традиционно делятся на три широкие категории, которые соответствуют парадигмам обучения, в зависимости от природы «сигнала» или «обратной связи», доступного системе обучения:

Хотя каждый алгоритм имеет свои преимущества и ограничения, ни один алгоритм не подходит для всех задач. [36] [37] [38]

Обучение под присмотром

Машина опорных векторов — это контролируемая модель обучения, которая делит данные на области, разделенные линейной границей . Здесь линейная граница отделяет черные круги от белых.

Алгоритмы контролируемого обучения создают математическую модель набора данных, которая содержит как входные, так и желаемые выходные данные. [39] Данные называются обучающими данными и состоят из набора обучающих примеров. Каждый обучающий пример имеет один или несколько входных данных и желаемый выходной сигнал, также известный как управляющий сигнал. В математической модели каждый пример обучения представлен массивом или вектором, иногда называемым вектором признаков , а данные обучения представлены матрицей . Посредством итеративной оптимизации целевой функции алгоритмы обучения с учителем изучают функцию, которую можно использовать для прогнозирования выходных данных, связанных с новыми входными данными. [40] Оптимальная функция позволяет алгоритму правильно определять выходные данные для входных данных, которые не были частью обучающих данных. Говорят, что алгоритм, который со временем повышает точность своих результатов или прогнозов, научился выполнять эту задачу. [19]

Типы алгоритмов контролируемого обучения включают активное обучение , классификацию и регрессию . [41] Алгоритмы классификации используются, когда выходные данные ограничены ограниченным набором значений, а алгоритмы регрессии используются, когда выходные данные могут иметь любое числовое значение в пределах диапазона. Например, для алгоритма классификации, который фильтрует электронные письма, входными данными будет входящее электронное письмо, а выходными — имя папки, в которой будет храниться электронное письмо.

Обучение по подобию — это область контролируемого машинного обучения, тесно связанная с регрессией и классификацией, но цель состоит в том, чтобы учиться на примерах с использованием функции сходства, которая измеряет, насколько похожи или связаны два объекта. Он имеет приложения для ранжирования , систем рекомендаций , визуального отслеживания личности, проверки лица и проверки говорящего.

Обучение без присмотра

Алгоритмы обучения без учителя находят структуры в данных, которые не были помечены, классифицированы или категоризированы. Вместо того, чтобы реагировать на обратную связь, алгоритмы обучения без учителя выявляют общие черты в данных и реагируют в зависимости от наличия или отсутствия таких общих черт в каждом новом фрагменте данных. Основные приложения машинного обучения без учителя включают кластеризацию, уменьшение размерности [8] и оценку плотности . [42] Алгоритмы обучения без учителя также упростили процесс идентификации больших гаплотипов интересующего гена на основе инделирования из пангенома . [43]

Кластеризация с помощью больших перестановочных наклонов Indel, CLIPS, превращает изображение выравнивания в задачу регрессии обучения. Различные оценки наклона ( b ) между каждой парой сегментов ДНК позволяют идентифицировать сегменты, имеющие один и тот же набор инделей.

Кластерный анализ — это распределение набора наблюдений на подмножества (называемые кластерами ), так что наблюдения внутри одного кластера схожи по одному или нескольким заранее заданным критериям, в то время как наблюдения, сделанные из разных кластеров, различны. Различные методы кластеризации делают разные предположения о структуре данных, часто определяемой некоторой метрикой сходства и оцениваемой, например, по внутренней компактности или сходству между членами одного и того же кластера, а также по разделению (разнице между кластерами). Другие методы основаны на расчетной плотности и связности графов .

Полуконтролируемое обучение

Обучение с полуконтролем находится между обучением без учителя (без каких-либо маркированных данных обучения) и обучением с учителем (с полностью маркированными данными обучения). В некоторых обучающих примерах отсутствуют обучающие метки, однако многие исследователи машинного обучения обнаружили, что немаркированные данные при использовании в сочетании с небольшим количеством размеченных данных могут значительно повысить точность обучения.

При обучении со слабым учителем ярлыки обучения зашумлены, ограничены или неточны; однако эти метки часто дешевле получить, что приводит к увеличению эффективных обучающих наборов. [44]

Обучение с подкреплением

Обучение с подкреплением — это область машинного обучения, связанная с тем, как программные агенты должны действовать в окружающей среде, чтобы максимизировать некоторое понятие совокупного вознаграждения. Из-за своей общности эта область изучается во многих других дисциплинах, таких как теория игр , теория управления , исследование операций , теория информации , оптимизация на основе моделирования , многоагентные системы , роевой интеллект , статистика и генетические алгоритмы . В обучении с подкреплением среда обычно представляется как марковский процесс принятия решений (MDP). Многие алгоритмы обучения с подкреплением используют методы динамического программирования . [45] Алгоритмы обучения с подкреплением не предполагают знание точной математической модели MDP и используются, когда точные модели невозможны. Алгоритмы обучения с подкреплением используются в автономных транспортных средствах или при обучении игре против человека-противника.

Уменьшение размерности

Снижение размерности — это процесс уменьшения количества рассматриваемых случайных величин за счет получения набора главных переменных. [46] Другими словами, это процесс уменьшения размерности набора функций , также называемый «количеством функций». Большинство методов уменьшения размерности можно рассматривать как исключение или извлечение признаков . Одним из популярных методов снижения размерности является анализ главных компонент (PCA). PCA предполагает изменение данных более высокой размерности (например, 3D) в меньшее пространство (например, 2D). Это приводит к меньшему размеру данных (2D вместо 3D), сохраняя при этом все исходные переменные в модели без изменения данных. [47] Гипотеза многообразия предполагает, что наборы данных большой размерности лежат вдоль многообразий низкой размерности , и многие методы уменьшения размерности делают это предположение, что приводит к области обучения многообразий и регуляризации многообразий .

Другие типы

Были разработаны и другие подходы, которые не вписываются в эту тройную категоризацию, и иногда в одной и той же системе машинного обучения используется более одного. Например, тематическое моделирование , метаобучение . [48]

Самообучение

Самообучение как парадигма машинного обучения было представлено в 1982 году вместе с нейронной сетью, способной к самообучению, названной перекрестной адаптивной матрицей (CAA). [49] Это обучение без внешних наград и советов внешнего учителя. Алгоритм самообучения CAA перекрестно вычисляет как решения о действиях, так и эмоции (чувства) в отношении последствий ситуаций. Система управляется взаимодействием познания и эмоций. [50] Алгоритм самообучения обновляет матрицу памяти W =||w(a,s)|| так, что на каждой итерации выполняется следующая процедура машинного обучения:

  1. в ситуации s выполнить действие a
  2. получить последствия ситуации
  3. вычислить эмоцию пребывания в ситуации последствий v(s')
  4. обновить память перекрестия w'(a,s) = w(a,s) + v(s')

Это система только с одним входом (ситуацией) и только одним выходом (действием (или поведением) а). Не существует ни отдельного подкрепления, ни рекомендаций со стороны окружающей среды. Значение обратного распространения (вторичное подкрепление) — это эмоция по отношению к последствиям ситуации. ВГА существует в двух средах: одна — это поведенческая среда, в которой он ведет себя, а другая — генетическая среда, откуда он изначально и только один раз получает первоначальные эмоции по поводу ситуаций, с которыми придется столкнуться в поведенческой среде. Получив вектор генома (вида) из генетической среды, CAA обучается целенаправленному поведению в среде, которая содержит как желательные, так и нежелательные ситуации. [51]

Особенности обучения

Некоторые алгоритмы обучения направлены на обнаружение лучшего представления входных данных, предоставляемых во время обучения. [52] Классические примеры включают анализ главных компонент и кластерный анализ. Алгоритмы обучения признакам, также называемые алгоритмами обучения представлению, часто пытаются сохранить информацию на входе, но также преобразовывают ее таким образом, чтобы сделать ее полезной, часто в качестве этапа предварительной обработки перед выполнением классификации или прогнозирования. Этот метод позволяет реконструировать входные данные, поступающие из неизвестного распределения, генерирующего данные, но при этом не обязательно быть верным конфигурациям, которые неправдоподобны при этом распределении. Это заменяет ручную разработку функций и позволяет машине как изучать функции, так и использовать их для выполнения конкретной задачи.

Обучение функциям может быть контролируемым или неконтролируемым. При контролируемом обучении функции изучаются с использованием помеченных входных данных. Примеры включают искусственные нейронные сети , многослойные перцептроны и контролируемое обучение словарям . При неконтролируемом обучении функции изучаются с использованием немаркированных входных данных. Примеры включают изучение словаря, анализ независимых компонентов , автокодировщики , матричную факторизацию [53] и различные формы кластеризации . [54] [55] [56]

Алгоритмы многообразного обучения пытаются сделать это при условии, что изученное представление является маломерным. Алгоритмы разреженного кодирования пытаются сделать это при условии, что изученное представление является разреженным, а это означает, что математическая модель имеет много нулей. Алгоритмы обучения многолинейного подпространства направлены на изучение низкоразмерных представлений непосредственно из тензорных представлений многомерных данных, без преобразования их в многомерные векторы. [57] Алгоритмы глубокого обучения обнаруживают несколько уровней представления или иерархию функций, при этом более абстрактные функции более высокого уровня определяются в терминах (или генерируются) функций более низкого уровня. Утверждалось, что интеллектуальная машина — это машина, которая изучает представление, которое распутывает основные факторы вариаций, объясняющие наблюдаемые данные. [58]

Изучение признаков мотивировано тем фактом, что задачи машинного обучения, такие как классификация, часто требуют входных данных, которые математически и вычислительно удобны для обработки. Однако данные реального мира, такие как изображения, видео и сенсорные данные, не привели к попыткам алгоритмического определения конкретных функций. Альтернативой является обнаружение таких функций или представлений путем исследования, не полагаясь на явные алгоритмы.

Редкое изучение словаря

Обучение по разреженному словарю — это метод обучения функциям, в котором обучающий пример представлен как линейная комбинация базисных функций и предполагается, что это разреженная матрица . Метод сильно NP-труден и его трудно решить приближенно. [59] Популярным эвристическим методом обучения разреженным словарям является алгоритм K-SVD . Разреженное изучение словаря применялось в нескольких контекстах. При классификации проблема состоит в том, чтобы определить класс, к которому принадлежит ранее не встречавшийся обучающий пример. Для словаря, в котором каждый класс уже создан, новый обучающий пример связан с классом, который лучше всего представлен соответствующим словарем. Разреженное словарное обучение также применялось при шумоподавлении изображений . Основная идея заключается в том, что чистый участок изображения может быть разреженно представлен словарем изображений, а шум — нет. [60]

Обнаружение аномалий

В интеллектуальном анализе данных обнаружение аномалий, также известное как обнаружение выбросов, представляет собой выявление редких элементов, событий или наблюдений, которые вызывают подозрения, поскольку значительно отличаются от большинства данных. [61] Как правило, аномальные элементы представляют собой такие проблемы, как банковское мошенничество , структурный дефект, проблемы со здоровьем или ошибки в тексте. Аномалии называются выбросами , новинками, шумом, отклонениями и исключениями. [62]

В частности, в контексте злоупотреблений и обнаружения вторжений в сеть интересными объектами часто являются не редкие объекты, а неожиданные всплески бездействия. Эта закономерность не соответствует общепринятому статистическому определению выброса как редкого объекта. Многие методы обнаружения выбросов (в частности, неконтролируемые алгоритмы) не будут работать с такими данными, если они не будут соответствующим образом агрегированы. Вместо этого алгоритм кластерного анализа может обнаружить микрокластеры, образованные этими шаблонами. [63]

Существуют три широкие категории методов обнаружения аномалий. [64] Методы неконтролируемого обнаружения аномалий обнаруживают аномалии в немаркированном наборе тестовых данных при предположении, что большинство экземпляров в наборе данных являются нормальными, путем поиска экземпляров, которые кажутся наименее подходящими для остальной части набора данных. Методы контролируемого обнаружения аномалий требуют набора данных, помеченных как «нормальный» и «ненормальный», и включают обучение классификатора (ключевое отличие от многих других задач статистической классификации заключается в несбалансированном характере обнаружения выбросов). Методы полуконтролируемого обнаружения аномалий создают модель, представляющую нормальное поведение, на основе заданного нормального набора обучающих данных, а затем проверяют вероятность того, что моделью будет сгенерирован тестовый экземпляр.

Обучение роботов

Обучение роботов основано на множестве методов машинного обучения, начиная с обучения с учителем, обучения с подкреплением [65] [66] и, наконец, метаобучения (например, MAML).

Правила ассоциации

Обучение правилам ассоциации — это основанный на правилах метод машинного обучения для обнаружения связей между переменными в больших базах данных. Он предназначен для выявления сильных правил, обнаруженных в базах данных, с использованием некоторой меры «интересности». [67]

Машинное обучение на основе правил — это общий термин для любого метода машинного обучения, который идентифицирует, изучает или развивает «правила» для хранения, манипулирования или применения знаний. Определяющей характеристикой алгоритма машинного обучения, основанного на правилах, является идентификация и использование набора реляционных правил, которые в совокупности представляют знания, полученные системой. В этом отличие от других алгоритмов машинного обучения, которые обычно определяют единственную модель, которую можно универсально применить к любому случаю для получения прогноза. [68] Подходы к машинному обучению, основанные на правилах, включают в себя обучение систем классификаторов , обучение ассоциативным правилам и искусственные иммунные системы .

Основываясь на концепции строгих правил, Ракеш Агравал , Томаш Имелински и Арун Свами представили правила ассоциации для обнаружения закономерностей между продуктами в крупномасштабных данных транзакций, записываемых системами точек продаж (POS) в супермаркетах. [69] Например, правило , обнаруженное в данных о продажах супермаркета, указывает на то, что если покупатель покупает лук и картофель вместе, он, скорее всего, также купит мясо для гамбургера. Такая информация может использоваться в качестве основы для принятия решений о маркетинговой деятельности, такой как рекламное ценообразование или размещение продукта . Помимо анализа потребительской корзины , правила ассоциации сегодня используются в таких прикладных областях, как анализ использования Интернета , обнаружение вторжений , непрерывное производство и биоинформатика . В отличие от интеллектуального анализа последовательностей , изучение правил ассоциации обычно не учитывает порядок элементов ни внутри транзакции, ни между транзакциями.

Системы классификаторов обучения (LCS) — это семейство алгоритмов машинного обучения на основе правил, которые сочетают в себе компонент обнаружения, обычно генетический алгоритм , с компонентом обучения, выполняя обучение с учителем , обучение с подкреплением или обучение без учителя . Они стремятся определить набор контекстно-зависимых правил, которые коллективно хранят и фрагментарно применяют знания для того, чтобы делать прогнозы. [70]

Индуктивное логическое программирование (ILP) — это подход к изучению правил с использованием логического программирования в качестве единообразного представления входных примеров, базовых знаний и гипотез. Учитывая кодирование известных базовых знаний и набора примеров, представленных в виде логической базы данных фактов, система ПДОДИ выводит гипотетическую логическую программу, которая влечет за собой все положительные примеры и отсутствие отрицательных. Индуктивное программирование — это смежная область, которая рассматривает любой язык программирования для представления гипотез (и не только логическое программирование), например функциональные программы .

Индуктивное логическое программирование особенно полезно в биоинформатике и обработке естественного языка . Гордон Плоткин и Эхуд Шапиро заложили первоначальную теоретическую основу индуктивного машинного обучения в логической постановке. [71] [72] [73] Шапиро построил свою первую реализацию (систему вывода моделей) в 1981 году: программу на Прологе, которая индуктивно выводит логические программы из положительных и отрицательных примеров. [74] Термин «индукция» здесь относится к философской индукции, предлагающей теорию для объяснения наблюдаемых фактов, а не к математической индукции , доказывающей свойство для всех членов хорошо упорядоченного множества.

Модели

Выполнение машинного обучения может включать создание модели , которая обучается на некоторых обучающих данных, а затем может обрабатывать дополнительные данные для составления прогнозов. Для систем машинного обучения использовались и исследовались различные типы моделей.

Искусственные нейронные сети

Искусственная нейронная сеть — это взаимосвязанная группа узлов, подобная обширной сети нейронов в мозге . Здесь каждый круглый узел представляет искусственный нейрон , а стрелка представляет соединение выхода одного искусственного нейрона со входом другого.

Искусственные нейронные сети (ИНС), или коннекционистские системы, представляют собой вычислительные системы, отчасти основанные на биологических нейронных сетях , составляющих мозг животных . Такие системы «учатся» выполнять задачи, рассматривая примеры, как правило, без программирования каких-либо правил, специфичных для конкретной задачи.

ИНС — это модель, основанная на наборе связанных единиц или узлов, называемых « искусственными нейронами », которые в общих чертах моделируют нейроны биологического мозга . Каждое соединение, подобно синапсам в биологическом мозге , может передавать информацию, «сигнал», от одного искусственного нейрона к другому. Искусственный нейрон, получивший сигнал, может его обработать и затем передать сигнал подключенным к нему дополнительным искусственным нейронам. В обычных реализациях ИНС сигнал при соединении между искусственными нейронами представляет собой действительное число , а выход каждого искусственного нейрона вычисляется с помощью некоторой нелинейной функции суммы его входов. Связи между искусственными нейронами называются «ребрами». Искусственные нейроны и ребра обычно имеют вес , который корректируется по мере обучения. Вес увеличивает или уменьшает силу сигнала при соединении. Искусственные нейроны могут иметь такой порог, что сигнал отправляется только в том случае, если совокупный сигнал пересекает этот порог. Обычно искусственные нейроны объединяются в слои. Разные слои могут выполнять разные виды преобразований на своих входах. Сигналы передаются от первого слоя (входного слоя) к последнему слою (выходному слою), возможно, после многократного прохождения слоев.

Первоначальная цель подхода ИНС заключалась в том, чтобы решать проблемы так же, как это делает человеческий мозг . Однако со временем внимание переместилось на выполнение конкретных задач, что привело к отклонениям от биологии . Искусственные нейронные сети использовались для решения множества задач, включая компьютерное зрение , распознавание речи , машинный перевод , фильтрацию социальных сетей , настольные и видеоигры , а также медицинскую диагностику .

Глубокое обучение состоит из нескольких скрытых слоев в искусственной нейронной сети. Этот подход пытается смоделировать то, как человеческий мозг преобразует свет и звук в зрение и слух. Некоторые успешные применения глубокого обучения — это компьютерное зрение и распознавание речи . [75]

Деревья решений

Дерево решений, показывающее вероятность выживания пассажиров Титаника .

При обучении по дереву решений дерево решений используется в качестве прогностической модели для перехода от наблюдений за элементом (представленных в ветвях) к выводам о целевом значении элемента (представленном в листьях). Это один из подходов прогнозного моделирования, используемых в статистике, интеллектуальном анализе данных и машинном обучении. Древовидные модели, в которых целевая переменная может принимать дискретный набор значений, называются деревьями классификации; в этих древовидных структурах листья представляют метки классов, а ветви представляют собой соединения объектов, которые приводят к этим меткам классов. Деревья решений, в которых целевая переменная может принимать непрерывные значения (обычно действительные числа ), называются деревьями регрессии. При анализе решений дерево решений можно использовать для визуального и явного представления решений и процесса их принятия . При интеллектуальном анализе данных дерево решений описывает данные, но полученное дерево классификации может быть входными данными для принятия решений.

Машины опорных векторов

Машины опорных векторов (SVM), также известные как сети опорных векторов, представляют собой набор связанных методов обучения с учителем , используемых для классификации и регрессии. Учитывая набор обучающих примеров, каждый из которых помечен как принадлежащий к одной из двух категорий, алгоритм обучения SVM строит модель, которая предсказывает, попадает ли новый пример в одну категорию. [76] Алгоритм обучения SVM представляет собой невероятностный бинарный линейный классификатор , хотя существуют такие методы, как масштабирование Платта, для использования SVM в условиях вероятностной классификации. Помимо выполнения линейной классификации, SVM могут эффективно выполнять нелинейную классификацию, используя так называемый трюк ядра , неявно отображая свои входные данные в многомерные пространства признаков.

Регрессивный анализ

Иллюстрация линейной регрессии на наборе данных

Регрессионный анализ включает в себя большое количество статистических методов для оценки взаимосвязи между входными переменными и связанными с ними функциями. Его наиболее распространенной формой является линейная регрессия , когда одна линия рисуется так, чтобы наилучшим образом соответствовать заданным данным в соответствии с математическим критерием, таким как обычный метод наименьших квадратов . Последнее часто расширяется с помощью методов регуляризации , чтобы уменьшить переобучение и систематическую ошибку, как в случае с гребневой регрессией . При решении нелинейных задач модели перехода включают полиномиальную регрессию (например, используемую для аппроксимации линии тренда в Microsoft Excel [77] ), логистическую регрессию (часто используемую в статистической классификации ) или даже ядерную регрессию , которая вводит нелинейность. воспользовавшись трюком ядра для неявного сопоставления входных переменных с многомерным пространством.

Байесовские сети

Простая байесовская сеть. Дождь влияет на то, активируется ли разбрызгиватель, а дождь и разбрызгиватель влияют на то, будет ли трава мокрой.

Байесовская сеть, сеть убеждений или направленная ациклическая графическая модель — это вероятностная графическая модель , которая представляет набор случайных величин и их условную независимость с помощью ориентированного ациклического графа (DAG). Например, байесовская сеть может представлять вероятностные связи между заболеваниями и симптомами. Учитывая симптомы, сеть можно использовать для расчета вероятности наличия различных заболеваний. Существуют эффективные алгоритмы, которые выполняют логический вывод и обучение. Байесовские сети, которые моделируют последовательности переменных, таких как речевые сигналы или последовательности белков , называются динамическими байесовскими сетями . Обобщения байесовских сетей, которые могут представлять и решать проблемы принятия решений в условиях неопределенности, называются диаграммами влияния .

Гауссовские процессы

Пример регрессии гауссовского процесса (прогноз) по сравнению с другими моделями регрессии [78]

Гауссовский процесс — это случайный процесс , в котором каждый конечный набор случайных величин в процессе имеет многомерное нормальное распределение и опирается на заранее определенную ковариационную функцию или ядро, которое моделирует, как пары точек связаны друг с другом в зависимости на своих местах.

Учитывая набор наблюдаемых точек или примеров ввода-вывода, распределение (ненаблюдаемых) выходных данных новой точки в зависимости от ее входных данных может быть напрямую вычислено путем просмотра наблюдаемых точек и ковариаций между этими точками и новыми , ненаблюдаемая точка.

Гауссовские процессы являются популярными суррогатными моделями в байесовской оптимизации , используемыми для оптимизации гиперпараметров .

Генетические алгоритмы

Генетический алгоритм (ГА) — это алгоритм поиска и эвристический метод, который имитирует процесс естественного отбора , используя такие методы, как мутация и скрещивание , для создания новых генотипов в надежде найти хорошие решения данной проблемы. В машинном обучении генетические алгоритмы использовались в 1980-х и 1990-х годах. [79] [80] И наоборот, методы машинного обучения использовались для повышения производительности генетических и эволюционных алгоритмов . [81]

Функции убеждения

Теория функций убеждения, также называемая теорией доказательств или теорией Демпстера-Шейфера, представляет собой общую основу для рассуждений с неопределенностью, с понятными связями с другими теориями, такими как теории вероятности , возможности и неточные теории вероятностей . Эти теоретические рамки можно рассматривать как своего рода обучающие устройства, и они обладают некоторыми свойствами, аналогичными тому, как объединяются доказательства (например, правило комбинации Демпстера), точно так же, как в байесовском подходе на основе PMF [ необходимы пояснения ] комбинируются вероятности. Однако есть много предостережений относительно этих функций убеждений по сравнению с байесовскими подходами, чтобы включить количественную оценку незнания и неопределенности . Эти подходы с функцией доверия, которые реализованы в области машинного обучения, обычно используют подход объединения различных ансамблевых методов , чтобы лучше справляться с границей принятия решения учащимся , небольшими выборками и неоднозначными проблемами класса, которые стандартный подход машинного обучения обычно с трудом решает. [3] [5] [10] Однако вычислительная сложность этих алгоритмов зависит от количества предложений (классов) и может привести к гораздо большему времени вычислений по сравнению с другими подходами машинного обучения.

Модели обучения

Обычно модели машинного обучения требуют большого количества надежных данных, чтобы модели могли выполнять точные прогнозы. При обучении модели машинного обучения инженерам машинного обучения необходимо собрать большую и репрезентативную выборку данных. Данные из обучающего набора могут быть такими же разнообразными, как корпус текста , набор изображений, данные датчиков и данные, собранные от отдельных пользователей службы. Переоснащение — это то, на что следует обратить внимание при обучении модели машинного обучения. Обученные модели, полученные на основе предвзятых или неоцененных данных, могут привести к искаженным или нежелательным прогнозам. Модели предвзятости могут привести к пагубным результатам, тем самым усиливая негативное воздействие на общество или цели. Алгоритмическая ошибка — это потенциальный результат того, что данные не полностью подготовлены к обучению. Этика машинного обучения становится областью исследований и, в частности, интегрируется в команды разработчиков машинного обучения.

Федеративное обучение

Федеративное обучение — это адаптированная форма распределенного искусственного интеллекта для обучения моделей машинного обучения, которая децентрализует процесс обучения, позволяя сохранять конфиденциальность пользователей без необходимости отправлять их данные на централизованный сервер. Это также повышает эффективность за счет децентрализации процесса обучения на множество устройств. Например, Gboard использует интегрированное машинное обучение для обучения моделей прогнозирования поисковых запросов на мобильных телефонах пользователей без необходимости отправлять отдельные поисковые запросы обратно в Google . [82]

Приложения

Существует множество приложений для машинного обучения, в том числе:

В 2006 году поставщик медиа-услуг Netflix провел первый конкурс « Netflix Prize », чтобы найти программу, которая лучше прогнозирует предпочтения пользователей и повышает точность существующего алгоритма рекомендации фильмов Cinematch как минимум на 10%. Совместная команда, состоящая из исследователей из AT&T Labs -Research в сотрудничестве с командами Big Chaos и Pragmatic Theory, создала ансамблевую модель , чтобы выиграть главный приз в 2009 году за 1 миллион долларов. [85] Вскоре после присуждения премии в Netflix поняли, что рейтинги зрителей не являются лучшим показателем их моделей просмотра («все является рекомендацией»), и соответствующим образом изменили свою систему рекомендаций. [86] В 2010 году The Wall Street Journal написала о фирме Rebellion Research и использовании ими машинного обучения для прогнозирования финансового кризиса. [87] В 2012 году соучредитель Sun Microsystems Винод Хосла предсказал, что 80% рабочих мест врачей будут потеряны в ближайшие два десятилетия из-за автоматизированного медицинского диагностического программного обеспечения машинного обучения. [88] В 2014 году сообщалось, что алгоритм машинного обучения был применен в области истории искусства для изучения картин изобразительного искусства и что он, возможно, выявил ранее непризнанные влияния среди художников. [89] В 2019 году Springer Nature опубликовала первую исследовательскую книгу, созданную с использованием машинного обучения. [90] В 2020 году технология машинного обучения была использована для постановки диагноза и помощи исследователям в разработке лекарства от COVID-19. [91] Недавно машинное обучение было применено для прогнозирования экологически чистого поведения путешественников. [92] Недавно технология машинного обучения была также применена для оптимизации производительности и температурного режима смартфона на основе взаимодействия пользователя с телефоном. [93] [94] [95] При правильном применении алгоритмы машинного обучения (MLA) могут использовать широкий спектр характеристик компании для прогнозирования доходности акций без переобучения . Используя эффективную разработку признаков и комбинирование прогнозов, MLA могут генерировать результаты, которые намного превосходят результаты, полученные с помощью базовых линейных методов, таких как OLS . [96]

Ограничения

Хотя машинное обучение произвело трансформацию в некоторых областях, программы машинного обучения часто не дают ожидаемых результатов. [97] [98] [99] Причин для этого множество: отсутствие (подходящих) данных, отсутствие доступа к данным, предвзятость данных, проблемы конфиденциальности, неправильно выбранные задачи и алгоритмы, неправильные инструменты и люди, нехватка ресурсов, и проблемы оценки. [100]

« Теория черного ящика » представляет собой еще одну, но важную проблему. Черный ящик относится к ситуации, когда алгоритм или процесс получения результатов полностью непрозрачен, а это означает, что даже программисты алгоритма не могут проверить шаблон, который машина извлекла из данных. [101] Специальный комитет Палаты лордов заявил, что такая «разведывательная система», которая могла бы оказать «существенное влияние на жизнь человека», не будет считаться приемлемой, если она не предоставит «полное и удовлетворительное объяснение решений», которые она принимает. делает. [101]

В 2018 году беспилотный автомобиль Uber не смог обнаружить пешехода, погибшего в результате столкновения. [102] Попытки использовать машинное обучение в здравоохранении с помощью системы IBM Watson не увенчались успехом даже после многих лет времени и миллиардов долларов инвестиций. [103] [104] Сообщается, что чат-бот Microsoft вызывает враждебную и оскорбительную реакцию в отношении своих пользователей. [105]

Машинное обучение использовалось в качестве стратегии для обновления данных, связанных с систематическим обзором, и увеличения нагрузки на рецензентов, связанной с ростом биомедицинской литературы. Несмотря на то, что благодаря обучающим наборам он улучшился, он еще не развился в достаточной степени, чтобы снизить рабочую нагрузку без ограничения необходимой чувствительности для самих результатов исследования. [106]

Предвзятость

В частности, подходы к машинному обучению могут страдать от различных искажений данных. Система машинного обучения, специально обученная на текущих клиентах, может быть не в состоянии предсказать потребности новых групп клиентов, которые не представлены в данных обучения. При обучении на данных, созданных человеком, машинное обучение, скорее всего, уловит конституционные и бессознательные предубеждения, уже присутствующие в обществе. [107]

Было показано, что языковые модели, полученные на основе данных, содержат предвзятости, подобные человеческим. [108] [109] В эксперименте, проведенном ProPublica , организацией, занимающейся журналистскими расследованиями , анализ алгоритма машинного обучения в отношении уровня рецидивов среди заключенных ошибочно отметил, что «черные обвиняемые подвергаются высокому риску в два раза чаще, чем белые обвиняемые». [110] В 2015 году на фотографиях Google часто помечались чернокожие люди как гориллы, [110] и в 2018 году эта проблема все еще не была решена должным образом, но, как сообщается, Google все еще использовал обходной путь для удаления всех горилл из обучающих данных, и поэтому не был вообще способен распознать настоящих горилл. [111] Подобные проблемы с признанием небелых людей были обнаружены во многих других системах. [112] В 2016 году Microsoft протестировала чат-бота , который учился на Twitter, и быстро усвоил расистские и сексистские высказывания. [113]

Из-за таких проблем эффективное использование машинного обучения может занять больше времени, прежде чем оно будет внедрено в других областях. [114] Заботу о справедливости в машинном обучении, то есть об уменьшении предвзятости в машинном обучении и стимулировании его использования на благо человечества, все чаще выражают ученые в области искусственного интеллекта, в том числе Фей-Фей Ли , который напоминает инженерам, что «в ИИ нет ничего искусственного. ...Он вдохновлен людьми, создан людьми и, что наиболее важно, влияет на людей. Это мощный инструмент, который мы только начинаем понимать, и это глубокая ответственность». [115]

Объясняемость

Объяснимый ИИ (XAI), или Интерпретируемый ИИ, или Объясняемое машинное обучение (XML), — это искусственный интеллект (ИИ), с помощью которого люди могут понимать решения или прогнозы, сделанные ИИ. [116] Это контрастирует с концепцией «черного ящика» в машинном обучении, где даже разработчики не могут объяснить, почему ИИ принял конкретное решение. [117] Совершенствуя ментальные модели пользователей систем на базе искусственного интеллекта и разрушая их заблуждения, XAI обещает помочь пользователям работать более эффективно. XAI может быть реализацией социального права на объяснение.

Переобучение

Синяя линия может быть примером переобучения линейной функции из-за случайного шума.

Выбор плохой, слишком сложной теории, подстроенной так, чтобы соответствовать всем прошлым обучающим данным, известен как переобучение. Многие системы пытаются уменьшить переобучение, вознаграждая теорию в зависимости от того, насколько хорошо она соответствует данным, и наказывая теорию в соответствии с ее сложностью. [118]

Другие ограничения и уязвимости

Учащиеся также могут разочароваться, «усвоив неправильный урок». Игрушечный пример: классификатор изображений, обученный только на изображениях коричневых лошадей и черных кошек, может прийти к выводу, что все коричневые пятна, скорее всего, являются лошадьми. [119] Реальным примером является то, что, в отличие от людей, современные классификаторы изображений зачастую не делают суждения на основе пространственных отношений между компонентами изображения, а изучают отношения между пикселями, о которых люди не обращают внимания, но которые все еще коррелируют с изображения определенных типов реальных объектов. Изменение этих шаблонов на законном изображении может привести к появлению «конкурентных» изображений, которые система неправильно классифицирует. [120] [121]

Состязательные уязвимости также могут привести к нелинейным системам или к нешаблоновым возмущениям. В некоторых системах можно изменить выходные данные, изменив только один выбранный состязательно пиксель. [122] Модели машинного обучения часто уязвимы для манипуляций и/или обхода посредством состязательного машинного обучения . [123]

Исследователи продемонстрировали, как бэкдоры могут быть незаметно помещены в классифицирующие (например, по категориям «спам» и хорошо видимые «не спам» сообщений) модели машинного обучения, которые часто разрабатываются и/или обучаются третьими лицами. Стороны могут изменить классификацию любых входных данных, в том числе в случаях, когда предусмотрен тип прозрачности данных/программного обеспечения , возможно, включая доступ к «белому ящику» . [124] [125] [126]

Модельные оценки

Классификация моделей машинного обучения может быть проверена с помощью методов оценки точности, таких как метод удержания , который разделяет данные на обучающий и тестовый наборы (обычно 2/3 обучающего набора и 1/3 обозначения тестового набора) и оценивает производительность обучающей модели. на тестовом наборе. Для сравнения, метод K-кратной перекрестной проверки случайным образом разделяет данные на K подмножества, а затем проводится K экспериментов, каждый из которых соответственно рассматривает 1 подмножество для оценки и оставшиеся K-1 подмножества для обучения модели. В дополнение к методам удержания и перекрестной проверки для оценки точности модели можно использовать бутстрап , который выбирает n экземпляров с заменой из набора данных. [127]

Помимо общей точности, исследователи часто сообщают о чувствительности и специфичности, что означает долю истинно положительных результатов (TPR) и частоту истинного отрицательных результатов (TNR) соответственно. Точно так же исследователи иногда сообщают о частоте ложноположительных результатов (FPR), а также о частоте ложноотрицательных результатов (FNR). Однако эти ставки представляют собой отношения, в которых не раскрываются их числители и знаменатели. Общая рабочая характеристика (ТОС) является эффективным методом выражения диагностических возможностей модели. TOC показывает числители и знаменатели ранее упомянутых скоростей, таким образом TOC предоставляет больше информации, чем обычно используемая рабочая характеристика приемника (ROC) и связанная с ROC площадь под кривой (AUC). [128]

Этика

Машинное обучение ставит множество этических вопросов . Системы, обученные на наборах данных, собранных с предвзятостью, могут проявлять эти предвзятости при использовании ( алгоритмическая предвзятость ), тем самым оцифровывая культурные предрассудки. [129] Например, в 1988 году Комиссия по расовому равенству Великобритании обнаружила, что Медицинская школа Св. Георгия использовала компьютерную программу, созданную на основе данных предыдущих сотрудников приемной комиссии, и эта программа отклонила почти 60 кандидатов, которые были признаны либо женщинами, либо женщинами. или имели имена, звучащие не по-европейски. [107] Использование данных о найме на работу от фирмы с расистской политикой найма может привести к тому, что система машинного обучения будет дублировать предвзятость, оценивая кандидатов на работу по сходству с предыдущими успешными кандидатами. [130] [131] Другой пример включает в себя алгоритм прогнозирования полицейской компании Geolitica , который привел к «непропорционально высокому уровню чрезмерной полицейской деятельности в сообществах с низкими доходами и меньшинствами» после обучения на исторических данных о преступлениях. [110]

Хотя ответственный сбор данных и документирование алгоритмических правил, используемых системой, считаются важной частью машинного обучения, некоторые исследователи обвиняют отсутствие участия и представительства меньшинств в области ИИ в уязвимости машинного обучения к предвзятости. [132] Фактически, согласно исследованию, проведенному Ассоциацией компьютерных исследований (CRA) в 2021 году, «женщины-преподаватели составляют лишь 16,1%» от всех преподавателей, специализирующихся на искусственном интеллекте, в нескольких университетах по всему миру. [133] Кроме того, среди группы «новых выпускников аспирантов в области искусственного интеллекта в США» 45% идентифицированы как белые, 22,4% как азиаты, 3,2% как латиноамериканцы и 2,4% как афроамериканцы, что еще раз демонстрирует отсутствие разнообразия в область ИИ. [133]

ИИ может быть хорошо оснащен для принятия решений в технических областях, которые в значительной степени полагаются на данные и историческую информацию. Эти решения основаны на объективности и логическом обосновании. [134] Поскольку человеческие языки содержат предубеждения, машины, обученные на языковых корпусах , обязательно также изучат эти предубеждения. [135] [136]

Другие формы этических проблем, не связанные с личными предубеждениями, наблюдаются в здравоохранении. Среди специалистов здравоохранения существуют опасения, что эти системы могут быть разработаны не в интересах общества, а как машины, приносящие доход. [137] Это особенно верно в Соединенных Штатах, где существует давняя этическая дилемма улучшения здравоохранения, но также и увеличения прибыли. Например, алгоритмы могут быть разработаны так, чтобы предоставлять пациентам ненужные тесты или лекарства, в которых заинтересованы владельцы алгоритма. Машинное обучение в здравоохранении потенциально может предоставить специалистам дополнительный инструмент для диагностики, лечения и планирования путей выздоровления пациентов, но для этого необходимо смягчить эти предубеждения. [138]

Аппаратное обеспечение

С 2010-х годов достижения как в алгоритмах машинного обучения, так и в компьютерном оборудовании привели к появлению более эффективных методов обучения глубоких нейронных сетей (особой узкой подобласти машинного обучения), которые содержат множество слоев нелинейных скрытых модулей. [139] К 2019 году графические процессоры ( GPU ), часто с улучшениями, специфичными для искусственного интеллекта, вытеснили центральные процессоры в качестве доминирующего метода обучения крупномасштабного коммерческого облачного искусственного интеллекта. [140] OpenAI оценила аппаратные вычисления, используемые в крупнейших проектах глубокого обучения, от AlexNet (2012) до AlphaZero (2017), и обнаружила 300 000-кратное увеличение объема необходимых вычислений с линией тренда удвоения, равной 3,4 месяца. [141] [142]

Нейроморфные/физические нейронные сети

Физическая нейронная сеть или нейроморфный компьютер — это тип искусственной нейронной сети , в которой электрически регулируемый материал используется для имитации функции нейронного синапса . «Физическая» нейронная сеть используется, чтобы подчеркнуть зависимость от физического оборудования, используемого для эмуляции нейронов , в отличие от программных подходов. В более общем смысле этот термин применим к другим искусственным нейронным сетям, в которых для эмуляции нейронного синапса используется мемристор или другой материал с электрически регулируемым сопротивлением. [143] [144]

Встроенное машинное обучение

Встроенное машинное обучение — это подобласть машинного обучения, в которой модель машинного обучения запускается во встроенных системах с ограниченными вычислительными ресурсами, таких как носимые компьютеры , периферийные устройства и микроконтроллеры . [145] [146] [147] Запуск модели машинного обучения во встроенных устройствах устраняет необходимость передачи и хранения данных на облачных серверах для дальнейшей обработки, что в дальнейшем снижает утечку данных и утечку конфиденциальности, происходящую из-за передачи данных, а также сводит к минимуму кражу интеллектуальная собственность, персональные данные и коммерческая тайна. Встроенное машинное обучение может применяться с помощью нескольких методов, включая аппаратное ускорение , [148] [149] использование приближенных вычислений , [150] оптимизацию моделей машинного обучения и многое другое. [151] [152]

Программное обеспечение

Пакеты программного обеспечения , содержащие различные алгоритмы машинного обучения, включают следующее:

Бесплатное программное обеспечение с открытым исходным кодом

Проприетарное программное обеспечение с бесплатными версиями и версиями с открытым исходным кодом.

Проприетарное программное обеспечение

Журналы

Конференции

Смотрите также

Рекомендации

  1. ^ Определение «без явного программирования» часто приписывают Артуру Сэмюэлю , который придумал термин «машинное обучение» в 1959 году, но в этой публикации эта фраза не встречается дословно и может быть перефразом , появившимся позже. Конференция «Перефразируя Артура Сэмюэля (1959), вопрос таков: как компьютеры могут научиться решать проблемы без явного программирования?» в Козе, Джон Р.; Беннетт, Форрест Х.; Андре, Дэвид; Кин, Мартин А. (1996). «Автоматическое проектирование топологии и размеров аналоговых электрических цепей с использованием генетического программирования». Искусственный интеллект в дизайне '96 . Искусственный интеллект в дизайне '96. Спрингер, Дордрехт. стр. 151–170. дои : 10.1007/978-94-009-0279-4_9. ISBN 978-94-010-6610-5.
  2. ^ «Что такое машинное обучение?». ИБМ . Проверено 27 июня 2023 г.
  3. ^ Аб Чжоу, Виктор (20 декабря 2019 г.). «Машинное обучение для начинающих: введение в нейронные сети». Середина . Архивировано из оригинала 9 марта 2022 г. Проверено 15 августа 2021 г.
  4. ^ Ху, Джуньянь; Ню, Ханлин; Карраско, Хоакин; Леннокс, Барри; Арвин, Фаршад (2020). «Автономные исследования с несколькими роботами на базе Вороного в неизвестных средах с помощью глубокого обучения с подкреплением». Транзакции IEEE по автомобильным технологиям . 69 (12): 14413–14423. дои : 10.1109/tvt.2020.3034800 . ISSN  0018-9545. S2CID  228989788.
  5. ^ аб Юсефзаде-Наджафабади, Мохсен; Хью, Эрл; Тюльпан, Дэн; Сулик, Джон; Эскандари, Милад (2021). «Применение алгоритмов машинного обучения в селекции растений: прогнозирование урожайности на основе гиперспектрального отражения сои?». Передний. Наука о растениях . 11 : 624273. doi : 10.3389/fpls.2020.624273 . ПМЦ 7835636 . ПМИД  33510761. 
  6. ^ abc Bishop, CM (2006), Распознавание образов и машинное обучение , Springer, ISBN 978-0-387-31073-2
  7. ^ Машинное обучение и распознавание образов «можно рассматривать как два аспекта одной области». [6] : VII 
  8. ^ аб Фридман, Джером Х. (1998). «Интеллектуальный анализ данных и статистика: какая связь?». Информатика и статистика . 29 (1): 3–9.
  9. ^ Сэмюэл, Артур (1959). «Некоторые исследования в области машинного обучения с использованием игры в шашки». Журнал исследований и разработок IBM . 3 (3): 210–229. CiteSeerX 10.1.1.368.2254 . дои : 10.1147/р.33.0210. S2CID  2126705. 
  10. ^ аб Р. Кохави и Ф. Провост, «Словарь терминов», Machine Learning, vol. 30, нет. 2–3, стр. 271–274, 1998.
  11. Герович, Слава (9 апреля 2015 г.). «Как компьютер отомстил Советскому Союзу». Наутилус . Архивировано из оригинала 22 сентября 2021 года . Проверено 19 сентября 2021 г.
  12. ^ Линдси, Ричард П. (1 сентября 1964 г.). «Влияние автоматизации на государственное управление». Западный политический ежеквартальный журнал . 17 (3): 78–81. дои : 10.1177/106591296401700364. ISSN  0043-4078. S2CID  154021253. Архивировано из оригинала 6 октября 2021 года . Проверено 6 октября 2021 г.
  13. ^ abc «История и эволюция машинного обучения: график». Что . Проверено 8 декабря 2023 г.
  14. ^ Милнер, Питер М. (1993). «Разум и Дональд О. Хебб». Научный американец . 268 (1): 124–129. Бибкод : 1993SciAm.268a.124M. doi : 10.1038/scientificamerican0193-124. ISSN  0036-8733. JSTOR  24941344. PMID  8418480.
  15. ^ «Наука: Кнопка дурака», Time (журнал) , 18 августа 1961 г.
  16. ^ Нильссон Н. Обучающиеся машины, МакГроу Хилл, 1965.
  17. ^ Дуда Р., Харт П. Распознавание образов и анализ сцены, Wiley Interscience, 1973
  18. ^ С. Бозиновски «Обучающее пространство: концепция представления для классификации адаптивных шаблонов», Технический отчет COINS № 81-28, Факультет компьютерных и информационных наук, Массачусетский университет в Амхерсте, Массачусетс, 1981. https://web.cs.umass .edu/publication/docs/1981/UM-CS-1981-028.pdf. Архивировано 25 февраля 2021 г. в Wayback Machine.
  19. ^ Аб Митчелл, Т. (1997). Машинное обучение . МакГроу Хилл. п. 2. ISBN 978-0-07-042807-2.
  20. ^ Харнад, Стеван (2008), «Игра с аннотациями: О Тьюринге (1950) о вычислениях, машинах и интеллекте», в Эпштейне, Роберт; Питерс, Грейс (ред.), Справочник по тесту Тьюринга: философские и методологические проблемы в поисках мыслящего компьютера , Kluwer, стр. 23–66, ISBN 9781402067082, заархивировано из оригинала 9 марта 2012 г. , получено 11 декабря 2012 г.
  21. ^ «Введение в ИИ, часть 1». Эдцион . 08.12.2020. Архивировано из оригинала 18 февраля 2021 г. Проверено 9 декабря 2020 г.
  22. ^ Синдху В., Ниведха С., Пракаш М. (февраль 2020 г.). «Эмпирическое научное исследование биоинформатики в машинном обучении». Журнал механики сплошных сред и математических наук (7). doi : 10.26782/jmcms.spl.7/2020.02.00006 .
  23. ^ Сарл, Уоррен С. (1994). «Нейронные сети и статистические модели». SUGI 19: материалы девятнадцатой ежегодной международной конференции группы пользователей SAS . Институт САС. стр. 1538–50. ISBN 9781555446116. ОСЛК  35546178.
  24. ^ abcd Рассел, Стюарт ; Норвиг, Питер (2003) [1995]. Искусственный интеллект: современный подход (2-е изд.). Прентис Холл. ISBN 978-0137903955.
  25. ^ аб Лэнгли, Пэт (2011). «Изменяющаяся наука о машинном обучении». Машинное обучение . 82 (3): 275–9. дои : 10.1007/s10994-011-5242-y .
  26. ^ Ле Ру, Николя; Бенджио, Йошуа; Фитцгиббон, Эндрю (2012). «Улучшение методов первого и второго порядка путем моделирования неопределенности». Ин Сра, Суврит; Новозин, Себастьян; Райт, Стивен Дж. (ред.). Оптимизация для машинного обучения . МТИ Пресс. п. 404. ИСБН 9780262016469. Архивировано из оригинала 17 января 2023 г. Проверено 12 ноября 2020 г.
  27. ^ Бздок, Данило; Альтман, Наоми ; Кшивинский, Мартин (2018). «Статистика против машинного обучения». Природные методы . 15 (4): 233–234. дои : 10.1038/nmeth.4642. ПМК 6082636 . ПМИД  30100822. 
  28. ^ аб Майкл И. Джордан (10 сентября 2014 г.). «статистика и машинное обучение». реддит. Архивировано из оригинала 18 октября 2017 г. Проверено 1 октября 2014 г.
  29. ^ Хунг и др. Алгоритмы измерения эффективности хирурга и прогнозирования клинических результатов в роботизированной хирургии. ЖАМА Сург. 2018 год
  30. ^ Библиотека Корнелльского университета (август 2001 г.). «Брейман: Статистическое моделирование: две культуры (с комментариями и ответом автора)». Статистическая наука . 16 (3). дои : 10.1214/сс/1009213726 . S2CID  62729017. Архивировано из оригинала 26 июня 2017 года . Проверено 8 августа 2015 г.
  31. ^ Гарет Джеймс; Даниэла Виттен; Тревор Хэсти; Роберт Тибширани (2013). Введение в статистическое обучение. Спрингер. п. VII. Архивировано из оригинала 23 июня 2019 г. Проверено 25 октября 2014 г.
  32. ^ Рамезанпур, А.; Бим, Алабама; Чен, Дж. Х.; Машаги, А. (17 ноября 2020 г.). «Статистическая физика для медицинской диагностики: алгоритмы обучения, вывода и оптимизации». Диагностика . 10 (11): 972. doi : 10.3390/diagnostics10110972 . ПМЦ 7699346 . ПМИД  33228143. 
  33. ^ Машаги, А.; Рамезанпур, А. (16 марта 2018 г.). «Статистическая физика медицинской диагностики: Исследование вероятностной модели». Физический обзор E . 97 (3–1): 032118. arXiv : 1803.10019 . Бибкод : 2018PhRvE..97c2118M. doi : 10.1103/PhysRevE.97.032118. PMID  29776109. S2CID  4955393.
  34. ^ Мори, Мехриар ; Ростамизаде, Афшин; Талвалкар, Амит (2012). Основы машинного обучения . США, Массачусетс: MIT Press. ISBN 9780262018258.
  35. ^ Алпайдин, Этем (2010). Введение в машинное обучение . Лондон: MIT Press. ISBN 978-0-262-01243-0. Проверено 4 февраля 2017 г.
  36. ^ Джордан, Мичиган; Митчелл, ТМ (17 июля 2015 г.). «Машинное обучение: тенденции, перспективы и перспективы». Наука . 349 (6245): 255–260. Бибкод : 2015Sci...349..255J. дои : 10.1126/science.aaa8415. PMID  26185243. S2CID  677218.
  37. ^ Эль-Нака, Иссам; Мерфи, Мартин Дж. (2015). «Что такое машинное обучение?». Машинное обучение в радиационной онкологии . стр. 3–11. дои : 10.1007/978-3-319-18305-3_1. ISBN 978-3-319-18304-6. S2CID  178586107.
  38. ^ Околи, Джуд А.; Сэвидж, Шона; Огбага, Чуквума К.; Гюнеш, Бурджу (июнь 2022 г.). «Оценка потенциала методов машинного обучения для изучения удаления фармацевтических препаратов из сточных вод с использованием биоугля или активированного угля». Темы всеобщих исследований окружающей среды . 1–2 : 100001. doi : 10.1016/j.totert.2022.100001 . S2CID  249022386.
  39. ^ Рассел, Стюарт Дж.; Норвиг, Питер (2010). Искусственный интеллект: современный подход (Третье изд.). Прентис Холл. ISBN 9780136042594.
  40. ^ Мори, Мехриар; Ростамизаде, Афшин; Талвалкар, Амит (2012). Основы машинного обучения . Массачусетский технологический институт Пресс. ISBN 9780262018258.
  41. ^ Алпайдин, Этем (2010). Введение в машинное обучение. МТИ Пресс. п. 9. ISBN 978-0-262-01243-0. Архивировано из оригинала 17 января 2023 г. Проверено 25 ноября 2018 г.
  42. ^ Джордан, Майкл И.; Бишоп, Кристофер М. (2004). "Нейронные сети". У Аллена Б. Такера (ред.). Справочник по информатике, второе издание (раздел VII: Интеллектуальные системы) . Бока-Ратон, Флорида: Chapman & Hall/CRC Press LLC. ISBN 978-1-58488-360-9.
  43. ^ Чжан, Бозен; Хуан, Хайян; Тиббс-Кортес, Лаура Э.; Ванус, Адам; Чжан, Живу; Сангине, Карен; Гарланд-Кэмпбелл, Кимберли А.; Ю, Цзяньмин; Ли, Сяньрань (2023). «Оптимизация машинного обучения без присмотра для исследования и составления графиков гаплотипов на основе инделей из пангеномов». Молекулярный завод . 16 (6): 975–978. дои : 10.1016/j.molp.2023.05.005 . ПМИД  37202927.
  44. ^ Алекс Ратнер; Стивен Бах; Парома Варма; Крис. «Слабый надзор: новая парадигма программирования для машинного обучения». hazyresearch.github.io . ссылаясь на работы многих других членов Hazy Research. Архивировано из оригинала 6 июня 2019 г. Проверено 6 июня 2019 г.
  45. ^ ван Оттерло, М.; Виринг, М. (2012). «Обучение с подкреплением и марковские процессы принятия решений». Обучение с подкреплением . Адаптация, обучение и оптимизация. Том. 12. стр. 3–42. дои : 10.1007/978-3-642-27645-3_1. ISBN 978-3-642-27644-6.
  46. ^ Роуэйс, Сэм Т.; Сол, Лоуренс К. (22 декабря 2000 г.). «Нелинейное уменьшение размерности путем локально линейного встраивания». Наука . 290 (5500): 2323–2326. Бибкод : 2000Sci...290.2323R. дои : 10.1126/science.290.5500.2323. PMID  11125150. S2CID  5987139.
  47. Шин, Теренс (5 января 2020 г.). «Все модели машинного обучения объяснены за 6 минут. Интуитивные объяснения самых популярных моделей машинного обучения». На пути к науке о данных .
  48. ^ Павел Браздил; Кристоф Жиро Кэрриер; Карлос Соарес; Рикардо Вилальта (2009). Метаобучение: приложения для интеллектуального анализа данных (Четвертое изд.). Springer Science+Business Media . стр. 10–14, пассим . ISBN 978-3540732624.
  49. ^ Бозиновский, С. (1982). «Самообучающаяся система с использованием вторичного подкрепления». В Траппле, Роберт (ред.). Кибернетика и системные исследования: материалы шестого европейского совещания по кибернетике и системным исследованиям. Северная Голландия. стр. 397–402. ISBN 978-0-444-86488-8
  50. ^ Божиновски, Стево (2014) «Моделирование механизмов когнитивно-эмоционального взаимодействия в искусственных нейронных сетях с 1981 года». Procedia Информатика с. 255-263
  51. ^ Бозиновский, С. (2001) «Самообучающиеся агенты: коннекционистская теория эмоций, основанная на перекрестных оценочных суждениях». Кибернетика и системы 32 (6) 637–667.
  52. ^ Ю. Бенджио; А. Курвиль; П. Винсент (2013). «Обучение репрезентации: обзор и новые перспективы». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 35 (8): 1798–1828. arXiv : 1206.5538 . дои : 10.1109/tpami.2013.50. PMID  23787338. S2CID  393948.
  53. ^ Натан Сребро; Джейсон Д.М. Ренни; Томми С. Яаккола (2004). Матричная факторизация максимальной маржи . НИПС .
  54. ^ Коутс, Адам; Ли, Хонглак; Нг, Эндрю Ю. (2011). Анализ однослойных сетей при обучении функций без учителя (PDF) . Международная конференция. по искусственному интеллекту и статистике (AISTATS). Архивировано из оригинала (PDF) 13 августа 2017 г. Проверено 25 ноября 2018 г.
  55. ^ Цурка, Габриэлла; Дэнс, Кристофер С.; Фан, Ликсин; Вилламовский, Ютта; Брей, Седрик (2004). Визуальная категоризация с набором ключевых точек (PDF) . Семинар ECCV по статистическому обучению в области компьютерного зрения. Архивировано (PDF) из оригинала 13 июля 2019 г. Проверено 29 августа 2019 г.
  56. ^ Дэниел Юрафски; Джеймс Х. Мартин (2009). Речевая и языковая обработка . Пирсон Эдьюкейшн Интернэшнл. стр. 145–146.
  57. ^ Лу, Хайпин; Платаниотис, КН; Венецанопулос, АН (2011). «Обзор многолинейного обучения подпространства для тензорных данных» (PDF) . Распознавание образов . 44 (7): 1540–1551. Бибкод : 2011PatRe..44.1540L. дои : 10.1016/j.patcog.2011.01.004. Архивировано (PDF) из оригинала 10 июля 2019 г. Проверено 4 сентября 2015 г.
  58. ^ Йошуа Бенджио (2009). Изучение глубоких архитектур для искусственного интеллекта. Now Publishers Inc., стр. 1–3. ISBN 978-1-60198-294-0. Архивировано из оригинала 17 января 2023 г. Проверено 15 февраля 2016 г.
  59. ^ Тиллманн, AM (2015). «О вычислительной сложности точного и приближенного изучения словарей». Письма об обработке сигналов IEEE . 22 (1): 45–49. arXiv : 1405.6664 . Бибкод : 2015ISPL...22...45T. дои :10.1109/LSP.2014.2345761. S2CID  13342762.
  60. ^ Аарон, М. , М. Элад и А. Брукштейн. 2006. «K-SVD: алгоритм разработки сверхполных словарей для разреженного представления. Архивировано 23 ноября 2018 г. в Wayback Machine ». Обработка сигналов, транзакции IEEE на 54 (11): 4311–4322
  61. ^ Зимек, Артур; Шуберт, Эрих (2017), «Обнаружение выбросов», Энциклопедия систем баз данных , Springer New York, стр. 1–5, doi : 10.1007/978-1-4899-7993-3_80719-1, ISBN 9781489979933
  62. ^ Ходж, виджей; Остин, Дж. (2004). «Обзор методологий обнаружения выбросов» (PDF) . Обзор искусственного интеллекта . 22 (2): 85–126. CiteSeerX 10.1.1.318.4023 . doi : 10.1007/s10462-004-4304-y. S2CID  59941878. Архивировано (PDF) из оригинала 22 июня 2015 г. Проверено 25 ноября 2018 г. 
  63. ^ Докас, Пол; Эртоз, Левент; Кумар, Випин; Лазаревич, Александр; Шривастава, Джайдип; Тан, Пан-Нин (2002). «Интеллектуальный анализ данных для обнаружения сетевых вторжений» (PDF) . Материалы семинара NSF по интеллектуальному анализу данных следующего поколения . Архивировано (PDF) из оригинала 23 сентября 2015 г. Проверено 26 марта 2023 г.
  64. ^ Чандола, В.; Банерджи, А.; Кумар, В. (2009). «Обнаружение аномалий: опрос». Обзоры вычислительной техники ACM . 41 (3): 1–58. дои : 10.1145/1541880.1541882. S2CID  207172599.
  65. ^ Флер, С.; Моринген, А.; Клацки, РЛ; Риттер, Х. (2020). «Обучение эффективному исследованию гаптической формы с помощью жесткой тактильной сенсорной матрицы, С. Флир, А. Моринген, Р. Клацки, Х. Риттер». ПЛОС ОДИН . 15 (1): e0226880. arXiv : 1902.07501 . дои : 10.1371/journal.pone.0226880 . ПМК 6940144 . ПМИД  31896135. 
  66. ^ Моринген, Александра; Флер, Саша; Уолк, Гийом; Риттер, Хельге (2020), Ниски, Илана; Хартчер-О'Брайен, Джесс; Вертлевски, Михаэль; Смитс, Джерун (ред.), «Обучение тактильного взаимодействия роботов на основе внимания», Гаптика: наука, технологии, приложения , конспекты лекций по информатике, Cham: Springer International Publishing, vol. 12272, стр. 462–470, номер doi : 10.1007/978-3-030-58147-3_51 , ISBN. 978-3-030-58146-6, S2CID  220069113
  67. ^ Пятецкий-Шапиро, Грегори (1991), Открытие, анализ и представление сильных правил , в Пятецкий-Шапиро, Грегори; и Фроули, Уильям Дж.; ред., «Обнаружение знаний в базах данных» , AAAI/MIT Press, Кембридж, Массачусетс.
  68. ^ Бассель, Джордж В.; Глааб, Энрико; Маркес, Джульетта; Холдсворт, Майкл Дж.; Бакардит, Жауме (1 сентября 2011 г.). «Построение функциональной сети в Arabidopsis с использованием машинного обучения на основе правил на крупномасштабных наборах данных». Растительная клетка . 23 (9): 3101–3116. дои : 10.1105/tpc.111.088153. ISSN  1532-298Х. ПМЦ 3203449 . ПМИД  21896882. 
  69. ^ Агравал, Р.; Имелинский, Т.; Свами, А. (1993). «Правила ассоциации майнинга между наборами элементов в больших базах данных». Материалы международной конференции ACM SIGMOD 1993 года по управлению данными - SIGMOD '93 . п. 207. CiteSeerX 10.1.1.40.6984 . дои : 10.1145/170035.170072. ISBN  978-0897915922. S2CID  490415.
  70. ^ Урбанович, Райан Дж.; Мур, Джейсон Х. (22 сентября 2009 г.). «Изучение систем классификаторов: полное введение, обзор и дорожная карта». Журнал искусственной эволюции и приложений . 2009 : 1–25. дои : 10.1155/2009/736398 . ISSN  1687-6229.
  71. ^ Плоткин Г.Д. Автоматические методы индуктивного вывода. Архивировано 22 декабря 2017 г. в Wayback Machine , докторская диссертация, Эдинбургский университет, 1970.
  72. ^ Шапиро, Эхуд Ю. Индуктивный вывод теорий из фактов. Архивировано 21 августа 2021 г. в Wayback Machine , отчет об исследовании 192, Йельский университет, факультет компьютерных наук, 1981. Перепечатано в J.-L. Лассез, Г. Плоткин (ред.), Вычислительная логика, MIT Press, Кембридж, Массачусетс, 1991, стр. 199–254.
  73. ^ Шапиро, Эхуд Ю. (1983). Алгоритмическая отладка программы . Кембридж, Массачусетс: MIT Press. ISBN 0-262-19218-7 
  74. ^ Шапиро, Эхуд Ю. «Модельная система вывода». Материалы 7-й международной совместной конференции по искусственному интеллекту. Том 2. Morgan Kaufmann Publishers Inc., 1981.
  75. ^ Хонглак Ли, Роджер Гросс, Раджеш Ранганат, Эндрю Ю. Нг. «Сверточные сети глубокого убеждения для масштабируемого обучения иерархических представлений без учителя. Архивировано 18 октября 2017 г. в Wayback Machine ». Материалы 26-й ежегодной международной конференции по машинному обучению, 2009 г.
  76. ^ Кортес, Коринна ; Вапник, Владимир Н. (1995). «Сети опорных векторов». Машинное обучение . 20 (3): 273–297. дои : 10.1007/BF00994018 .
  77. ^ Стивенсон, Кристофер. «Учебник: Полиномиальная регрессия в Excel». Facialstaff.richmond.edu . Архивировано из оригинала 2 июня 2013 года . Проверено 22 января 2017 г.
  78. ^ В документации scikit-learn также есть аналогичные примеры. Архивировано 2 ноября 2022 г. на Wayback Machine .
  79. ^ Голдберг, Дэвид Э.; Холланд, Джон Х. (1988). «Генетические алгоритмы и машинное обучение» (PDF) . Машинное обучение . 3 (2): 95–99. дои : 10.1007/bf00113892 . S2CID  35506513. Архивировано (PDF) из оригинала 16 мая 2011 г. Проверено 3 сентября 2019 г.
  80. ^ Мичи, Д.; Шпигельхальтер, диджей; Тейлор, CC (1994). «Машинное обучение, нейронная и статистическая классификация». Серия Эллиса Хорвуда об искусственном интеллекте . Бибкод :1994млнс.книга.....М.
  81. ^ Чжан, Цзюнь; Чжан, Чжи-хуэй; Линь, Ин; Чен, Ни; Гун, Юэ-цзяо; Чжун, Цзин-хуэй; Чанг, Генри Ш.; Ли, Юн; Ши, Юй-хуэй (2011). «Эволюционные вычисления встречаются с машинным обучением: опрос». Журнал вычислительной разведки . 6 (4): 68–75. дои : 10.1109/mci.2011.942584. S2CID  6760276.
  82. ^ «Федеративное обучение: совместное машинное обучение без централизованных данных обучения» . Блог Google AI . 6 апреля 2017 г. Архивировано из оригинала 07 июня 2019 г. Проверено 8 июня 2019 г.
  83. ^ Машинное обучение включено в учебную программу CFA (обсуждение ведется сверху вниз); см.: Кэтлин ДеРоуз и Кристоф Ле Ланно (2020). «Машинное обучение». Архивировано 13 января 2020 г. в Wayback Machine .
  84. ^ Иваненко, Михаил; Смолик, Вальдемар Т.; Ванта, Дамиан; Мидура, Матеуш; Врублевский, Пшемыслав; Хоу, Сяохань; Ян, Сяохэн (2023). «Реконструкция изображения с использованием контролируемого обучения в портативной электроимпедансной томографии грудной клетки». Датчики . 23 (18): 7774. Бибкод : 2023Senso..23.7774I. дои : 10.3390/s23187774 . ПМЦ 10538128 . ПМИД  37765831. 
  85. ^ "Домашняя страница БелКора" Research.att.com
  86. ^ «Технический блог Netflix: Рекомендации Netflix: за пределами 5 звезд (Часть 1)» . 06 апреля 2012 г. Архивировано из оригинала 31 мая 2016 года . Проверено 8 августа 2015 г.
  87. Скотт Паттерсон (13 июля 2010 г.). «Позволим машинам решать». Журнал "Уолл Стрит . Архивировано из оригинала 24 июня 2018 года . Проверено 24 июня 2018 г.
  88. Винод Хосла (10 января 2012 г.). «Нужны ли нам врачи или алгоритмы?». Технический кризис. Архивировано из оригинала 18 июня 2018 года . Проверено 20 октября 2016 г.
  89. ^ Когда алгоритм машинного обучения изучал картины изобразительного искусства, он видел вещи, которые историки искусства никогда не замечали. Архивировано 4 июня 2016 г. в блоге Wayback Machine , Физика в блоге ArXiv .
  90. ^ Винсент, Джеймс (10 апреля 2019 г.). «Первый учебник, созданный с помощью ИИ, показывает, в чем на самом деле хороши писатели-роботы». Грань . Архивировано из оригинала 5 мая 2019 г. Проверено 5 мая 2019 г.
  91. ^ Вайшья, Раджу; Джавайд, Мохд; Хан, Ибрагим Халим; Халим, Абид (1 июля 2020 г.). «Приложения искусственного интеллекта (ИИ) для борьбы с пандемией COVID-19». Диабет и метаболический синдром: клинические исследования и обзоры . 14 (4): 337–339. дои : 10.1016/j.dsx.2020.04.012 . ПМК 7195043 . ПМИД  32305024. 
  92. ^ Резапурагдам, Хамед; Ахшик, Араш; Рамкиссун, Хайванти (10 марта 2021 г.). «Применение машинного обучения для прогнозирования зеленого поведения посетителей на морских охраняемых территориях: данные Кипра». Журнал устойчивого туризма . 31 (11): 2479–2505. дои : 10.1080/09669582.2021.1887878 . hdl : 10037/24073 .
  93. ^ Дей, Сомдип; Сингх, Амит Кумар; Ван, Сяохан; Макдональд-Майер, Клаус (15 июня 2020 г.). «Усиленное обучение с учетом взаимодействия с пользователем для повышения энергоэффективности и тепловой эффективности мобильных MPSoC CPU-GPU». Конференция и выставка «Проектирование, автоматизация и испытания в Европе» 2020 (ДАТА) (PDF) . стр. 1728–1733. дои : 10.23919/ДАТА48585.2020.9116294. ISBN 978-3-9819263-4-7. S2CID  219858480. Архивировано из оригинала 13 декабря 2021 г. Проверено 20 января 2022 г.
  94. ^ Заданный вопрос, Тони. «Смартфоны становятся умнее благодаря инновациям Essex». Деловой еженедельник . Архивировано из оригинала 24 июня 2021 г. Проверено 17 июня 2021 г.
  95. ^ Уильямс, Рианнон (21 июля 2020 г.). «Смартфоны будущего «продлят срок службы батареи, отслеживая поведение владельцев»». я . Архивировано из оригинала 24 июня 2021 г. Проверено 17 июня 2021 г.
  96. ^ Расехшаффе, Кейван Кристиан; Джонс, Роберт С. (01 июля 2019 г.). «Машинное обучение для выбора акций». Журнал финансовых аналитиков . 75 (3): 70–88. дои : 10.1080/0015198X.2019.1596678. ISSN  0015-198X. S2CID  108312507.
  97. ^ «Почему модели машинного обучения часто не обучаются: вопросы и ответы QuickTake» . Bloomberg.com . 10 ноября 2016 г. Архивировано из оригинала 20 марта 2017 г. Проверено 10 апреля 2017 г.
  98. ^ «Первая волна корпоративного искусственного интеллекта обречена на провал». Гарвардское деловое обозрение . 18 апреля 2017 г. Архивировано из оригинала 21 августа 2018 г. Проверено 20 августа 2018 г.
  99. ^ «Почему эйфория искусственного интеллекта обречена на провал» . ВенчурБит . 18 сентября 2016 г. Архивировано из оригинала 19 августа 2018 г. Проверено 20 августа 2018 г.
  100. ^ «9 причин, по которым ваш проект машинного обучения потерпит неудачу» . www.kdnuggets.com . Архивировано из оригинала 21 августа 2018 г. Проверено 20 августа 2018 г.
  101. ^ аб Бабута, Александр; Освальд, Мэрион; Риник, Кристина (2018). Прозрачность и понятность (Отчет). Королевский институт объединенных служб (RUSI). стр. 17–22.
  102. ^ «Почему беспилотный автомобиль Uber сбил пешехода» . Экономист . Архивировано из оригинала 21 августа 2018 г. Проверено 20 августа 2018 г.
  103. ^ «Уотсон из IBM рекомендовал «небезопасные и неправильные» методы лечения рака - STAT» . СТАТ . 25 июля 2018 г. Архивировано из оригинала 21 августа 2018 г. Проверено 21 августа 2018 г.
  104. ^ Эрнандес, Даниэла; Гринвальд, Тед (11 августа 2018 г.). «У IBM есть дилемма Ватсона». Журнал "Уолл Стрит . ISSN  0099-9660. Архивировано из оригинала 21 августа 2018 г. Проверено 21 августа 2018 г.
  105. Аллин, Бобби (27 февраля 2023 г.). «Как эксперимент Microsoft в области искусственного интеллекта имел неприятные последствия». Национальное общественное радио . Проверено 8 декабря 2023 г.
  106. ^ Редди, Шивани М.; Патель, Шейла; Вейрих, Меган; Фентон, Джошуа; Вишванатан, Мира (2020). «Сравнение традиционного подхода к систематическому обзору с обзором обзоров и полуавтоматизацией как стратегиями обновления доказательств». Систематические обзоры . 9 (1): 243. дои : 10.1186/s13643-020-01450-2 . ISSN  2046-4053. ПМЦ 7574591 . ПМИД  33076975. 
  107. ^ Аб Гарсия, Меган (2016). «Расист в машине». Журнал мировой политики . 33 (4): 111–117. дои : 10.1215/07402775-3813015. ISSN  0740-2775. S2CID  151595343.
  108. ^ Калискан, Айлин; Брайсон, Джоанна Дж.; Нарайанан, Арвинд (14 апреля 2017 г.). «Семантика, автоматически полученная из языковых корпусов, содержит предубеждения, подобные человеческим». Наука . 356 (6334): 183–186. arXiv : 1608.07187 . Бибкод : 2017Sci...356..183C. doi : 10.1126/science.aal4230. ISSN  0036-8075. PMID  28408601. S2CID  23163324.
  109. ^ Ван, Синань; Дасгупта, Санджой (2016), Ли, Д.Д.; Сугияма, М.; Люксбург, УФ; Гийон, И. (ред.), «Алгоритм поиска ближайшего соседа L1 посредством монотонного встраивания» (PDF) , «Достижения в области нейронных систем обработки информации» 29 , Curran Associates, Inc., стр. 983–991, заархивировано (PDF) с сайта оригинал 07 апреля 2017 г. , получено 20 августа 2018 г.
  110. ^ abc Сильва, Селена; Кенни, Мартин (2018). «Алгоритмы, платформы и этнические предубеждения: интегративное эссе» (PDF) . Филон . 55 (1 и 2): 9–37. ISSN  0031-8906. JSTOR  26545017. Архивировано (PDF) из оригинала 27 января 2024 г.
  111. Винсент, Джеймс (12 января 2018 г.). «Google «исправила» свой расистский алгоритм, удалив горилл из своей технологии маркировки изображений». Грань . Архивировано из оригинала 21 августа 2018 г. Проверено 20 августа 2018 г.
  112. Кроуфорд, Кейт (25 июня 2016 г.). «Мнение | Проблема белого парня искусственного интеллекта» . Газета "Нью-Йорк Таймс . Архивировано из оригинала 14 января 2021 г. Проверено 20 августа 2018 г.
  113. Мец, Рэйчел (24 марта 2016 г.). «Почему Microsoft случайно запустила неонацистского секс-бота» . Обзор технологий Массачусетского технологического института . Архивировано из оригинала 09.11.2018 . Проверено 20 августа 2018 г.
  114. Симонит, Том (30 марта 2017 г.). «Microsoft: искусственный интеллект еще недостаточно адаптируем, чтобы помочь бизнесу». Обзор технологий Массачусетского технологического института . Архивировано из оригинала 09.11.2018 . Проверено 20 августа 2018 г.
  115. ^ Хемпель, Джесси (13 ноября 2018 г.). «Стремление Фей-Фей Ли сделать машины лучше для человечества». Проводной . ISSN  1059-1028. Архивировано из оригинала 14 декабря 2020 г. Проверено 17 февраля 2019 г.
  116. ^ Рудин, Синтия (2019). «Перестаньте объяснять модели машинного обучения «черный ящик» для принятия важных решений и вместо этого используйте интерпретируемые модели». Природный машинный интеллект . 1 (5): 206–215. дои : 10.1038/s42256-019-0048-x. ПМЦ 9122117 . ПМИД  35603010. 
  117. ^ Ху, Тунси; Чжан, Сюэсун; Борер, Гил; Лю, Янлан; Чжоу, Юю; Мартин, Джей; ЛИ, Ян; Чжао, Кайгуан (2023 г.). «Прогнозирование урожайности с помощью объяснимого искусственного интеллекта и интерпретируемого машинного обучения: опасности моделей черного ящика для оценки воздействия изменения климата на урожайность». Сельскохозяйственная и лесная метеорология . 336 : 109458. doi : 10.1016/j.agrformet.2023.109458. S2CID  258552400.
  118. ^ Домингос 2015, Глава 6, Глава 7.
  119. ^ Домингос 2015, с. 286.
  120. ^ «Изменение одного пикселя обманывает программы искусственного интеллекта» . Новости BBC . 3 ноября 2017 г. Архивировано из оригинала 22 марта 2018 г. . Проверено 12 марта 2018 г.
  121. ^ «У искусственного интеллекта проблема с галлюцинациями, которую трудно исправить» . ПРОВОДНОЙ . 2018. Архивировано из оригинала 12 марта 2018 года . Проверено 12 марта 2018 г.
  122. ^ Мадри, А.; Макелов А.; Шмидт, Л.; Ципрас, Д.; Владу, А. (4 сентября 2019 г.). «На пути к моделям глубокого обучения, устойчивым к состязательным атакам». arXiv : 1706.06083 [stat.ML].
  123. ^ «Состязательное машинное обучение - Центр долгосрочной кибербезопасности CLTC Калифорнийского университета в Беркли» . КЛТС . Архивировано из оригинала 17 мая 2022 г. Проверено 25 мая 2022 г.
  124. ^ «Модели машинного обучения уязвимы для необнаружимых бэкдоров» . Регистр . Архивировано из оригинала 13 мая 2022 года . Проверено 13 мая 2022 г.
  125. ^ «Необнаружимые бэкдоры, которые можно установить в любом алгоритме машинного обучения» . IEEE-спектр . 10 мая 2022 года. Архивировано из оригинала 11 мая 2022 года . Проверено 13 мая 2022 г.
  126. ^ Гольдвассер, Шафи; Ким, Майкл П.; Вайкунтанатан, Винод; Замир Ор (14 апреля 2022 г.). «Внедрение необнаружимых бэкдоров в моделях машинного обучения». arXiv : 2204.06974 [cs.LG].
  127. ^ Кохави, Рон (1995). «Исследование перекрестной проверки и начальной загрузки для оценки точности и выбора модели» (PDF) . Международная совместная конференция по искусственному интеллекту . Архивировано (PDF) из оригинала 12 июля 2018 г. Проверено 26 марта 2023 г.
  128. ^ Понтиус, Роберт Гилмор; Си, Канпин (2014). «Общая рабочая характеристика для измерения диагностических возможностей для нескольких порогов». Международный журнал географической информатики . 28 (3): 570–583. Бибкод : 2014IJGIS..28..570P. дои : 10.1080/13658816.2013.862623. S2CID  29204880.
  129. ^ Бостром, Ник (2011). «Этика искусственного интеллекта» (PDF) . Архивировано из оригинала (PDF) 4 марта 2016 года . Проверено 11 апреля 2016 г.
  130. ^ Эдионве, Толулопа. «Борьба с расистскими алгоритмами». Схема . Архивировано из оригинала 17 ноября 2017 года . Проверено 17 ноября 2017 г.
  131. ^ Джеффрис, Эдрианн. «Машинное обучение — это расизм, потому что Интернет — это расизм». Схема . Архивировано из оригинала 17 ноября 2017 года . Проверено 17 ноября 2017 г.
  132. ^ Вонг, Карисса (30 марта 2023 г.). «Исследования «справедливости» ИИ сдерживаются отсутствием разнообразия» . Природа . дои : 10.1038/d41586-023-00935-z. PMID  36997714. S2CID  257857012.
  133. ^ Аб Чжан, Джек Кларк. «Отчет об индексе искусственного интеллекта за 2021 год» (PDF) . Стэнфордский институт человекоцентрированного искусственного интеллекта .
  134. ^ Бостром, Ник; Юдковский, Элиезер (2011). «ЭТИКА ИСКУССТВЕННОГО ИНТЕЛЛЕКТА» (PDF) . Ник Бостром . Архивировано (PDF) из оригинала 20 декабря 2015 г. Проверено 18 ноября 2020 г.
  135. ^ МОР Пратес; ПМЦ Авелар; LC Lamb (11 марта 2019 г.). «Оценка гендерной предвзятости в машинном переводе: пример использования Google Translate». arXiv : 1809.02208 [cs.CY].
  136. Нараянан, Арвинд (24 августа 2016 г.). «Язык обязательно содержит человеческие предубеждения, как и машины, обученные на языковых корпусах». Свобода мастерить . Архивировано из оригинала 25 июня 2018 года . Проверено 19 ноября 2016 г.
  137. ^ Чар, Дантон С.; Шах, Нигам Х.; Магнус, Дэвид (15 марта 2018 г.). «Внедрение машинного обучения в здравоохранении — решение этических проблем». Медицинский журнал Новой Англии . 378 (11): 981–983. дои : 10.1056/NEJMp1714229. ISSN  0028-4793. ПМЦ 5962261 . ПМИД  29539284. 
  138. ^ Чар, Д.С.; Шах, Нью-Хэмпшир; Магнус, Д. (2018). «Внедрение машинного обучения в здравоохранении — решение этических проблем». Медицинский журнал Новой Англии . 378 (11): 981–983. дои : 10.1056/nejmp1714229. ПМЦ 5962261 . ПМИД  29539284. 
  139. ^ Исследования, AI (23 октября 2015 г.). «Глубокие нейронные сети для акустического моделирования в распознавании речи». airesearch.com . Архивировано из оригинала 1 февраля 2016 года . Проверено 23 октября 2015 г.
  140. ^ «Графические процессоры пока продолжают доминировать на рынке ускорителей искусственного интеллекта» . Информационная неделя . Декабрь 2019. Архивировано из оригинала 10 июня 2020 года . Проверено 11 июня 2020 г.
  141. ^ Рэй, Тирнан (2019). «ИИ меняет всю природу вычислений». ЗДНет . Архивировано из оригинала 25 мая 2020 года . Проверено 11 июня 2020 г.
  142. ^ «ИИ и вычисления». ОпенАИ . 16 мая 2018 г. Архивировано из оригинала 17 июня 2020 г. . Проверено 11 июня 2020 г.
  143. ^ «Физические нейронные сети Cornell & NTT: «Радикальная альтернатива для реализации глубоких нейронных сетей», которая обеспечивает произвольное обучение физических систем | Синхронизация» . 27 мая 2021 г. Архивировано из оригинала 27 октября 2021 г. Проверено 12 октября 2021 г.
  144. ^ «Нано-спагетти для решения проблемы энергопотребления нейронных сетей» . Архивировано из оригинала 06 октября 2021 г. Проверено 12 октября 2021 г.
  145. ^ Фафутис, Ксенофонт; Маркеджиани, Летиция; Элстс, Атис; Папа, Джеймс; Пехоцки, Роберт; Крэддок, Ян (07 мая 2018 г.). «Продление срока службы батареи носимых датчиков с помощью встроенного машинного обучения». Четвертый Всемирный форум IEEE по Интернету вещей (WF-IoT) 2018 г. стр. 269–274. doi : 10.1109/WF-IoT.2018.8355116. hdl : 1983/b8fdb58b-7114-45c6-82e4-4ab239c1327f. ISBN 978-1-4673-9944-9. S2CID  19192912. Архивировано из оригинала 18 января 2022 г. Проверено 17 января 2022 г.
  146. ^ «Руководство для начинающих по машинному обучению для встраиваемых систем». Журнал Analytics India . 2021-06-02. Архивировано из оригинала 18 января 2022 г. Проверено 17 января 2022 г.
  147. ^ Синхронизировано (12 января 2022 г.). «Среда с открытым исходным кодом Google, Purdue и Harvard U для TinyML обеспечивает до 75-кратного ускорения работы FPGA | Синхронизируется» . syncedreview.com . Архивировано из оригинала 18 января 2022 г. Проверено 17 января 2022 г.
  148. ^ Гири, Давиде; Чиу, Куан-Лин; Ди Гульельмо, Джузеппе; Мантовани, Паоло; Карлони, Лука П. (15 июня 2020 г.). «ESP4ML: Платформенное проектирование систем на кристалле для встраиваемого машинного обучения». Конференция и выставка «Проектирование, автоматизация и испытания в Европе» 2020 (ДАТА) . стр. 1049–1054. arXiv : 2004.03640 . дои : 10.23919/ДАТА48585.2020.9116317. ISBN 978-3-9819263-4-7. S2CID  210928161. Архивировано из оригинала 18 января 2022 г. Проверено 17 января 2022 г.
  149. ^ Луи, Марсия Сахая; Азад, Захра; Дельшадтехрани, Лейла; Гупта, Суйог; Смотритель, Пит; Редди, Виджай Джанапа; Джоши, Аджай (2019). «На пути к глубокому обучению с использованием TensorFlow Lite на RISC-V». Гарвардский университет . Архивировано из оригинала 17 января 2022 г. Проверено 17 января 2022 г.
  150. ^ Ибрагим, Али; Оста, Марио; Аламе, Мохамад; Салех, Мустафа; Чибл, Хусейн; Валле, Маурицио (21 января 2019 г.). «Приближенные вычислительные методы для встроенного машинного обучения». 2018 25-я Международная конференция IEEE по электронике, схемам и системам (ICECS) . стр. 845–848. doi : 10.1109/ICECS.2018.8617877. ISBN 978-1-5386-9562-3. S2CID  58670712. Архивировано из оригинала 17 января 2022 г. Проверено 17 января 2022 г.
  151. ^ «dblp: TensorFlow Eager: многоэтапный встроенный в Python DSL для машинного обучения» . dblp.org . Архивировано из оригинала 18 января 2022 г. Проверено 17 января 2022 г.
  152. ^ Бранко, Сержио; Феррейра, Андре Г.; Кабрал, Хорхе (05.11.2019). «Машинное обучение во встраиваемых системах, FPGA и конечных устройствах с ограниченными ресурсами: обзор». Электроника . 8 (11): 1289. doi : 10.3390/electronics8111289 . hdl : 1822/62521 . ISSN  2079-9292.

Источники

дальнейшее чтение

Внешние ссылки