Визуализация патентов — это приложение визуализации информации . Количество патентов увеличивается, [1] побуждая компании рассматривать интеллектуальную собственность как часть своей стратегии. [2] Визуализация патентов, как и картирование патентов , используется для быстрого просмотра патентного портфеля .
Программное обеспечение, предназначенное для визуализации патентов, начало появляться в 2000 году, например, Aureka от Aurigin (теперь принадлежит Thomson Reuters ). [3] Многие платформы для анализа патентов и портфелей, такие как Questel, [4] Patent Forecast, PatSnap, Patentcloud, Relecura и Patent iNSIGHT Pro, [5] предлагают возможности визуализации определенных данных в патентных документах путем создания тематических карт , [6] карт приоритетов, отчетов о ландшафте ИС, [7] и т. д. Программное обеспечение преобразует патенты в инфографику или карты, чтобы позволить аналитику «получить представление о данных» и сделать выводы. [8] Также называемая патинформатикой, [9] это «наука анализа патентной информации для обнаружения взаимосвязей и тенденций, которые было бы трудно увидеть при работе с патентными документами по принципу «один на один». [ необходима ссылка ]
Патенты содержат структурированные данные (например, номера публикаций) и неструктурированный текст (например, название, аннотация, претензии и визуальная информация). Структурированные данные обрабатываются с помощью интеллектуального анализа данных , а неструктурированные данные обрабатываются с помощью текстового анализа . [10]
Основным шагом в обработке структурированной информации является интеллектуальный анализ данных [ 11] , который появился в конце 1980-х годов. Интеллектуальный анализ данных включает статистику, искусственный интеллект и машинное обучение [12] . Интеллектуальный анализ патентных данных извлекает информацию из структурированных данных патентного документа. [13] Эти структурированные данные представляют собой библиографические поля, такие как местоположение, дата или статус.
Добыча данных позволяет изучать схемы подачи заявок конкурентами и находит основных патентных заявителей в определенной области технологий. Этот подход может быть полезен для мониторинга среды конкурентов, их действий и тенденций инноваций, а также дает макро-обзор состояния технологии. [ необходима цитата ]
Текстовый интеллектуальный анализ используется для поиска в неструктурированных текстовых документах. [14] [15] Этот метод широко используется в Интернете, он имел успех в биоинформатике , а теперь и в сфере интеллектуальной собственности. [16]
Текстовый интеллектуальный анализ основан на статистическом анализе повторяемости слов в корпусе. [17] Алгоритм извлекает слова и выражения из заголовка, резюме и претензий и собирает их по склонению . «И» и «если» помечаются как слова, не несущие информации, и сохраняются в списке стоп-слов . Списки стоп-слов могут быть специализированы для создания точного анализа. Затем алгоритм ранжирует слова по весу в соответствии с их частотой в корпусе патента и частотой документа, содержащего это слово. Оценка для каждого слова рассчитывается с использованием формулы, такой как: [18] [19]
Часто используемое слово в нескольких документах имеет меньший вес, чем слово, часто используемое в нескольких патентах. Слова с минимальным весом исключаются, оставляя список соответствующих слов или дескрипторов. Каждый патент связан с дескрипторами, найденными в выбранном документе. Далее, в процессе кластеризации, эти дескрипторы используются как подмножества, в которых патенты перегруппированы, или как теги для размещения патентов в предопределенных категориях, например, ключевые слова из Международной патентной классификации.
С помощью текстового анализа можно обрабатывать четыре части текста:
Программное обеспечение предлагает различные комбинации, но чаще всего используются заголовок, аннотация и формула изобретения, что обеспечивает хороший баланс между помехами и релевантностью.
Текстовый анализ может использоваться для сужения поиска или быстрой оценки корпуса патентов. Например, если запрос выдает нерелевантные документы, многоуровневая иерархия кластеризации идентифицирует их, чтобы удалить и уточнить поиск. Текстовый анализ также может использоваться для создания внутренних таксономий, специфичных для корпуса, для возможного сопоставления. [ необходима цитата ]
Объединение патентного анализа и информационных инструментов предлагает обзор окружающей среды посредством визуализаций с добавленной стоимостью. Поскольку патенты содержат структурированную и неструктурированную информацию, визуализации делятся на две категории. Структурированные данные могут быть визуализированы с помощью интеллектуального анализа данных на макротематике и статистическом анализе. Неструктурированную информацию можно отображать в виде облаков, кластерных карт и 2D-карт ключевых слов.
Картографические визуализации можно использовать для получения результатов как текстового, так и информационного анализа.
Что может выделить патентная визуализация : [21] [22]
Применение в полевых условиях : [24] [22]