Diffbot — разработчик алгоритмов машинного обучения и компьютерного зрения , а также общедоступных API для извлечения данных из веб-страниц/ веб-скрапинга с целью создания базы знаний .
Компания привлекла внимание применением технологии компьютерного зрения к веб-страницам, при котором она визуально анализирует веб-страницу на предмет важных элементов и возвращает их в структурированном формате . [1] В 2015 году Diffbot объявила, что работает над своей версией автоматизированного « Схемы знаний », сканируя Интернет и используя автоматическое извлечение веб-страниц для создания большой базы данных структурированных веб-данных. [2] В 2019 году Diffbot выпустила свою Схему знаний, которая с тех пор выросла и включает более 2 миллиардов сущностей (корпораций, людей, статей, продуктов, обсуждений и т. д.) и 10 триллионов «фактов».
Продукты компании позволяют разработчикам программного обеспечения анализировать домашние страницы веб-сайтов и страницы статей [3] и извлекать «важную информацию», игнорируя элементы, которые не считаются ключевыми для основного контента. [4]
В августе 2012 года компания выпустила API Page Classifier, который автоматически классифицирует веб-страницы по определенным «типам страниц». [5] В рамках этого проекта Diffbot проанализировал 750 000 веб-страниц, размещенных в социальной сети Twitter , и выявил, что фотографии, за которыми следуют статьи и видео, являются преобладающими веб-медиа, размещенными в социальной сети. [6]
В сентябре 2020 года компания выпустила API обработки естественного языка для автоматического построения графов знаний из текста. [7] [8] В мае 2012 года компания привлекла финансирование в размере 2 миллионов долларов от инвесторов, включая Энди Бехтольшейма и Скай Дейтон . [9]
Клиентами Diffbot являются Adobe , AOL , Cisco , DuckDuckGo , eBay , Instapaper , Microsoft , Onswipe и Springpad . [4] [5] [10]