stringtranslate.com

Диффбот

Diffbot — разработчик алгоритмов машинного обучения и компьютерного зрения , а также общедоступных API для извлечения данных из веб-страниц/ веб-скрапинга с целью создания базы знаний .

Компания привлекла внимание применением технологии компьютерного зрения к веб-страницам, при котором она визуально анализирует веб-страницу на предмет важных элементов и возвращает их в структурированном формате . [1] В 2015 году Diffbot объявила, что работает над своей версией автоматизированного « Схемы знаний », сканируя Интернет и используя автоматическое извлечение веб-страниц для создания большой базы данных структурированных веб-данных. [2] В 2019 году Diffbot выпустила свою Схему знаний, которая с тех пор выросла и включает более 2 миллиардов сущностей (корпораций, людей, статей, продуктов, обсуждений и т. д.) и 10 триллионов «фактов».

Продукты компании позволяют разработчикам программного обеспечения анализировать домашние страницы веб-сайтов и страницы статей [3] и извлекать «важную информацию», игнорируя элементы, которые не считаются ключевыми для основного контента. [4]

В августе 2012 года компания выпустила API Page Classifier, который автоматически классифицирует веб-страницы по определенным «типам страниц». [5] В рамках этого проекта Diffbot проанализировал 750 000 веб-страниц, размещенных в социальной сети Twitter , и выявил, что фотографии, за которыми следуют статьи и видео, являются преобладающими веб-медиа, размещенными в социальной сети. [6]

В сентябре 2020 года компания выпустила API обработки естественного языка для автоматического построения графов знаний из текста. [7] [8] В мае 2012 года компания привлекла финансирование в размере 2 миллионов долларов от инвесторов, включая Энди Бехтольшейма и Скай Дейтон . [9]

Клиентами Diffbot являются Adobe , AOL , Cisco , DuckDuckGo , eBay , Instapaper , Microsoft , Onswipe и Springpad . [4] [5] [10]

Смотрите также

Ссылки

  1. ^ "Diffbot позволяет разработчикам ориентироваться в коде так, как видят мир наши глаза". TheNextWeb. 25 августа 2011 г. Получено 21 апреля 2013 г.
  2. ^ "Стартап выпускает клон Google's 'Knowledge Graph'". Wired. 4 июня 2015 г. Получено 15 июня 2015 г.
  3. ^ «Diffbot помогает приложениям читать Интернет, как люди». GigaOm. 25 августа 2011 г. Получено 14 марта 2013 г.
  4. ^ ab "Инвесторы поддерживают визуального обучающего робота Diffbot для веб-контента". The Wall Street Journal. 31 мая 2012 г. Получено 14 марта 2013 г.
  5. ^ ab "Новый API DiffBot блестяще показывает, что скрывается за любой ссылкой". 16 августа 2012 г. Получено 14 марта 2013 г.
  6. ^ "Twitter: A Day in the Life". Mashable . 16 августа 2012 г. Получено 14 марта 2013 г.
  7. ^ «Новый инструмент ИИ отображает семьи Библии, Песнь Льда и Огня». Datanami . 2020-09-17 . Получено 2022-06-08 .
  8. ^ Питер, Алекс. "Web Scraping" . Получено 28 марта 2021 г.
  9. ^ "Diffbot собирает 2 миллиона долларов, чтобы помочь приложениям понять открытый, неструктурированный веб". TheVerge. 31 мая 2012 г. Получено 14 марта 2013 г.
  10. ^ "Diffbot превосходит Google's Knowledge Graph, удовлетворяя потребность в структурированных данных". Forbes . 4 июня 2015 г. Получено 15 июня 2015 г.

Внешние ссылки