Система фильтрации информации

Система фильтрации информации — это система, которая удаляет избыточную или нежелательную информацию из информационного потока с помощью (полу)автоматических или компьютеризированных методов перед представлением пользователю-человеку. Ее главная цель — управление информационной перегрузкой и увеличение семантического отношения сигнал/шум . Для этого профиль пользователя сравнивается с некоторыми эталонными характеристиками. Эти характеристики могут исходить из информационного элемента (контентно-ориентированный подход) или из социальной среды пользователя ( подход совместной фильтрации ).

В то время как при передаче информации фильтры обработки сигналов используются для борьбы с шумами, нарушающими синтаксис, на уровне битов, методы, используемые при фильтрации информации, действуют на семантическом уровне.

Диапазон используемых машинных методов строится на тех же принципах, что и для извлечения информации . Заметное применение можно найти в области фильтров спама в электронной почте . Таким образом, не только информационный взрыв требует определенной формы фильтров, но и непреднамеренно или злонамеренно введенная псевдоинформация .

На уровне представления фильтрация информации осуществляется в форме новостных лент на основе предпочтений пользователя и т. д.

Рекомендательные системы и платформы обнаружения контента являются активными системами фильтрации информации, которые пытаются представить пользователю элементы информации ( фильмы , телевидение , музыку , книги , новости , веб-страницы ), которые его интересуют. Эти системы добавляют элементы информации к информации, поступающей к пользователю, в отличие от удаления элементов информации из информационного потока к пользователю. Рекомендательные системы обычно используют подходы совместной фильтрации или комбинацию подходов совместной фильтрации и фильтрации на основе контента, хотя рекомендательные системы на основе контента существуют.

История

До появления Интернета уже существовало несколько методов фильтрации информации ; например, правительства могли контролировать и ограничивать поток информации в определенной стране с помощью формальной или неформальной цензуры.

С другой стороны, мы будем говорить об информационных фильтрах, если мы имеем в виду редакторов газет и журналистов, когда они предоставляют услугу, которая отбирает наиболее ценную информацию для своих клиентов, читателей книг, журналов, газет, радиослушателей и телезрителей . Эта операция фильтрации также присутствует в школах и университетах, где есть выбор информации для предоставления помощи на основе академических критериев клиентам этой услуги, студентам. С появлением Интернета стало возможным, что каждый может публиковать все, что он пожелает, по низкой цене. Таким образом, он значительно увеличивает менее полезную информацию и, следовательно, распространяется качественная информация. С этой проблемой он начал разрабатывать новую фильтрацию, с помощью которой мы можем легко и эффективно получать информацию, необходимую для каждой конкретной темы.

Операция

Система фильтрации такого типа состоит из нескольких инструментов, которые помогают людям находить наиболее ценную информацию, поэтому ограниченное время, которое вы можете посвятить чтению/прослушиванию/просмотру, правильно направляется на наиболее интересные и ценные документы. Эти фильтры также используются для организации и структурирования информации правильным и понятным способом, в дополнение к групповым сообщениям на адрес электронной почты. Эти фильтры имеют важное значение в результатах, полученных поисковыми системами в Интернете. Функции фильтрации улучшаются с каждым днем, чтобы получить загрузку веб-документов и более эффективные сообщения.

Критерий

Одним из критериев, используемых на этом этапе, является то, является ли знание вредным или нет, позволяет ли знание лучше понять с концепцией или без нее. В этом случае задача фильтрации информации заключается в уменьшении или устранении вредной информации со знанием.

Система обучения

Система содержания обучения состоит, в общем, из трех основных этапов:

Во-первых, система, которая предоставляет решения для определенного набора задач.
Затем он проходит оценку по критериям, которые измеряют эффективность предыдущего этапа в отношении решения проблем.
Модуль сбора данных, на выходе которого получены знания, используемые в решателе системы первого этапа.

Будущее

В настоящее время проблема заключается не в поиске наилучшего способа фильтрации информации , а в том, как эти системы должны самостоятельно изучать информационные потребности пользователей. Не только потому, что они автоматизируют процесс фильтрации , но и в построении и адаптации фильтра. Некоторые отрасли, основанные на нем, такие как статистика, машинное обучение, распознавание образов и интеллектуальный анализ данных, являются базой для разработки информационных фильтров, которые появляются и адаптируются в соответствии с опытом. Для осуществления процесса обучения часть информации должна быть предварительно отфильтрована, что означает наличие положительных и отрицательных примеров, которые мы назвали данными для обучения, которые могут быть сгенерированы экспертами или с помощью обратной связи от обычных пользователей.

Ошибка

По мере ввода данных система включает новые правила; если мы считаем, что эти данные могут обобщать информацию обучающих данных, то мы должны оценить разработку системы и измерить способность системы правильно предсказывать категории новой информации . Этот шаг упрощается путем разделения обучающих данных в новую серию, называемую «тестовые данные», которую мы будем использовать для измерения частоты ошибок. Как общее правило, важно различать типы ошибок (ложноположительные и ложноотрицательные). Например, в случае с агрегатором контента для детей, он не имеет такой же серьезности, чтобы разрешить прохождение информации, не подходящей для них, которая показывает насилие или порнографию, чем ошибка отбросить некоторую присвоенную информацию. Чтобы улучшить систему, снизить частоту ошибок и иметь эти системы с обучающими способностями, аналогичными человеческим, мы требуем разработки систем, которые имитируют человеческие когнитивные способности, такие как понимание естественного языка , улавливание смысла Common и другие формы продвинутой обработки для достижения семантики информации.

Области применения

В настоящее время существует множество методов разработки информационных фильтров, некоторые из них достигают уровня ошибок менее 10% в различных экспериментах. ^{[ требуется ссылка ]} Среди этих методов есть деревья решений, машины опорных векторов, нейронные сети, байесовские сети, линейные дискриминанты, логистическая регрессия и т. д. В настоящее время эти методы используются в различных приложениях, не только в веб-контексте, но и в таких разнообразных тематических вопросах, как распознавание голоса, классификация телескопической астрономии или оценка финансового риска.

Смотрите также

Алгоритмическое курирование – курирование медиа с использованием компьютерных алгоритмов.
Искусственный интеллект – Интеллект машин
Совместный интеллект
Пузырь фильтров – интеллектуальная изоляция с участием поисковых систем
Информационный взрыв – быстрое увеличение объема опубликованной информации или данных.
Информационная грамотность – Академическая дисциплина
Информационная перегрузка – принятие решений при наличии слишком большого количества информации.
Информационное общество – Форма общества
Фильтр Калмана – алгоритм, который оценивает неизвестные величины на основе серии измерений с течением времени.
Управление репутацией – влияние, контроль, улучшение или сокрытие репутации отдельного человека или группы.

Ссылки

Ханани, У., Шапира, Б., Шовал, П. (2001) Фильтрация информации: обзор проблем, исследований и систем. Моделирование пользователей и адаптированное для пользователей взаимодействие, 11, стр. 203–259.
http://www.infoworld.com/d/developer-world/human-information-filter-813

Внешние ссылки

Инфомир
IEEXplore