Система фильтрации информации

Система фильтрации информации — это система, которая удаляет избыточную или нежелательную информацию из информационного потока с использованием (полу)автоматических или компьютеризированных методов перед ее представлением пользователю-человеку. Его основная цель — управление информационной перегрузкой и повышение смыслового отношения сигнал/шум . Для этого профиль пользователя сравнивается с некоторыми эталонными характеристиками. Эти характеристики могут исходить из информационного элемента (подход на основе контента) или социальной среды пользователя ( подход совместной фильтрации ).

В то время как при передаче информации фильтры обработки сигналов используются против разрушающих синтаксис шумов на битовом уровне, методы, используемые при фильтрации информации, действуют на семантическом уровне.

Диапазон применяемых машинных методов основан на тех же принципах, что и методы извлечения информации . Заметное применение можно найти в области спам-фильтров электронной почты . Таким образом, не только информационный взрыв вызывает необходимость в той или иной форме фильтров, но и непреднамеренно или злонамеренно введенная псевдоинформация .

На уровне представления фильтрация информации принимает форму новостных лент на основе пользовательских предпочтений и т. д.

Рекомендательные системы и платформы обнаружения контента представляют собой активные системы фильтрации информации, которые пытаются представить пользователю элементы информации ( фильмы , телевидение , музыка , книги , новости , веб-страницы ), которые интересуют пользователя. Эти системы добавляют элементы информации к информации, поступающей к пользователя, в отличие от удаления элементов информации из информационного потока, направленного к пользователю. Рекомендательные системы обычно используют подходы совместной фильтрации или комбинацию подходов совместной фильтрации и фильтрации на основе контента, хотя системы рекомендаций на основе контента действительно существуют.

История

До появления Интернета уже существовало несколько методов фильтрации информации ; например, правительства могут контролировать и ограничивать поток информации в конкретной стране посредством формальной или неформальной цензуры.

С другой стороны, об информационных фильтрах мы будем говорить, если иметь в виду редакторов газет и журналистов, когда они предоставляют услугу по отбору наиболее ценной информации для своих клиентов, читателей книг, журналов, газет, радиослушателей и телезрителей . Эта операция фильтрации также присутствует в школах и университетах, где происходит отбор информации для оказания помощи на основе академических критериев клиентам этой услуги — студентам. С появлением Интернета каждый может опубликовать все, что пожелает, по низкой цене. Таким образом, значительно увеличивается количество менее полезной информации и, следовательно, распространяется качественная информация. Решив эту проблему, начали разрабатывать новую фильтрацию, с помощью которой мы можем легко и эффективно получать информацию, необходимую для каждой конкретной темы.

Операция

Система фильтрации такого стиля состоит из нескольких инструментов, которые помогают людям находить наиболее ценную информацию, поэтому ограниченное время, которое вы можете посвятить чтению/прослушиванию/просмотру, правильно направляется на наиболее интересные и ценные документы. Эти фильтры также используются для правильной и понятной организации и структурирования информации, помимо группировки сообщений по адресованной почте. Эти фильтры играют важную роль в результатах, получаемых поисковыми системами в Интернете. Функции фильтрации совершенствуются с каждым днем, чтобы обеспечить более эффективную загрузку веб-документов и сообщений.

Критерий

Одним из критериев, используемых на этом этапе, является то, вредны ли знания или нет, позволяют ли знания лучше понять концепцию с концепцией или без нее. В этом случае задача фильтрации информации заключается в уменьшении или устранении вредной информации с помощью знаний.

Система обучения

Система содержания обучения состоит, по общим правилам, в основном из трех основных этапов:

Во-первых, это система, обеспечивающая решение определенного набора задач.
Впоследствии он подвергается критериям оценки, которые будут измерять эффективность предыдущего этапа в отношении решения проблем.
Модуль сбора данных, на выходе которого получены знания, используемые в решателе системы первого этапа.

Будущее

В настоящее время проблема заключается не в поиске наилучшего способа фильтрации информации , а в том, каким образом эти системы требуют самостоятельного изучения информационных потребностей пользователей. Не только потому, что они автоматизируют процесс фильтрации , но также построение и адаптацию фильтра. Некоторые основанные на нем отрасли, такие как статистика, машинное обучение, распознавание образов и интеллектуальный анализ данных, являются основой для разработки информационных фильтров, которые появляются и адаптируются в зависимости от опыта. Для осуществления процесса обучения часть информации должна быть предварительно отфильтрована, а это означает, что существуют положительные и отрицательные примеры, которые мы назвали обучающими данными, которые могут быть сгенерированы экспертами или на основе отзывов обычных пользователей.

Ошибка

По мере ввода данных в систему включаются новые правила; если мы считаем, что эти данные могут обобщать информацию обучающих данных, то мы должны оценить развитие системы и измерить способность системы правильно прогнозировать категории новой информации . Этот шаг упрощается за счет разделения обучающих данных на новую серию, называемую «тестовые данные», которую мы будем использовать для измерения частоты ошибок. Как правило, важно различать типы ошибок (ложноположительные и ложноотрицательные). Например, в случае с агрегатором контента для детей допустить прохождение неподходящей для них информации, демонстрирующей насилие или порнографию, не имеет такой же серьезности, как ошибка в удалении некоторой присвоенной информации. Чтобы улучшить систему, снизить частоту ошибок и сделать эти системы способными к обучению, подобными человеческим, нам необходима разработка систем, имитирующих когнитивные способности человека, таких как понимание естественного языка , улавливание смысла и другие формы расширенной обработки для достижения семантики информация.

Области использования

В настоящее время существует множество методов разработки информационных фильтров, некоторые из них достигают уровня ошибок менее 10% в различных экспериментах. ^{[ нужна ссылка ]} Среди этих методов есть деревья решений, машины опорных векторов, нейронные сети, байесовские сети, линейные дискриминанты, логистическая регрессия и т. д. В настоящее время эти методы используются в различных приложениях, не только в веб-контексте, но и в других приложениях. в таких разнообразных тематических вопросах, как распознавание голоса, классификация телескопической астрономии или оценка финансовых рисков.

Смотрите также

Алгоритмическое курирование - Курирование СМИ с использованием компьютерных алгоритмов.
Искусственный интеллект - интеллект машин или программного обеспечения.
Совместный интеллект
Пузырь фильтров – интеллектуальная изоляция с участием поисковых систем
Информационный взрыв – быстрое увеличение количества публикуемой информации или данных.
Информационная грамотность – Учебная дисциплина
Информационная перегрузка – принятие решений с использованием слишком большого количества информации.
Информационное общество - Форма общества
Фильтр Калмана - алгоритм, который оценивает неизвестные на основе серии измерений с течением времени.
Управление репутацией - влияние, контроль, улучшение или сокрытие репутации человека или группы.

Внешние ссылки

Инфомир
IEEXplore