stringtranslate.com

Апач Тика

Apache Tika — это платформа обнаружения и анализа контента , написанная на Java и управляемая Apache Software Foundation . [1] Он обнаруживает и извлекает метаданные и текст из более чем тысячи различных типов файлов , а также предоставляет библиотеку Java , имеет серверные версии и версии для командной строки, подходящие для использования с другими языками программирования.

История

Проект возник как часть кодовой базы Apache Nutch для обеспечения идентификации и извлечения контента при сканировании . В 2007 году он был выделен, чтобы сделать его более расширяемым и удобным для использования системами управления контентом , другими веб-сканерами и системами поиска информации. Автономную компанию Tika основали Жером Шаррон, Крис Маттманн и Юкка Зиттинг. [2] В 2011 году Крис Мэттманн и Юкка Зиттинг выпустили книгу Мэннинга «Тика в действии», и проект выпустил версию 1.0.

Функции

Tika предоставляет возможности для идентификации более 1400 типов файлов из таксономии типов MIME Управления по присвоению номеров в Интернете . Для большинства наиболее распространенных и популярных форматов [3] Tika обеспечивает возможности извлечения контента, метаданных и идентификации языка.

Он также может получать текст из изображений с помощью программного обеспечения OCR Tesseract . [4]

Хотя Tika написана на Java , она широко используется и на других языках. [5] Сервер RESTful и инструмент CLI позволяют программам, не использующим Java, получать доступ к функциям Tika.

Известные применения

Tika используется финансовыми учреждениями, включая Fair Isaac Corporation (FICO), [6] Goldman Sachs, [7] NASA и академическими исследователями [8] , а также основными системами управления контентом, включая Drupal , [9] и Alfresco (программное обеспечение) [10]. ] для анализа больших объемов контента и предоставления его в распространенных форматах с использованием методов поиска информации.

4 апреля 2016 года [11] Forbes опубликовал статью, в которой Tika названа одной из ключевых технологий, используемых более чем 400 журналистами для анализа 11,5 миллионов утекших документов, раскрывающих международный скандал с участием мировых лидеров, хранящих деньги в оффшорных подставных корпорациях . Утечка документов и проект по их анализу получили название « Панамские документы» .

Смотрите также

Рекомендации

  1. ^ "Апач Тика" . Проверено 15 апреля 2016 г.
  2. ^ "Предложение Тики" . Проверено 15 апреля 2016 г.
  3. ^ "Фонд программного обеспечения Apache" . Страница форматов Apache Tika . Проверено 16 апреля 2016 г.
  4. ^ "ТикаOCR". Апач Тика. 26 марта 2019 г. Проверено 2 декабря 2019 г.
  5. ^ «Привязки API для Тики» . Апач Тика . Проверено 17 апреля 2016 г.
  6. ^ «FICO привлечет сообщество Kaggle, состоящее из 180 000 специалистов по данным, для продвижения инноваций в аналитическом облаке FICO | FICO» . ФИКО | Решения . Архивировано из оригинала 3 июня 2016 г. Проверено 15 апреля 2016 г.
  7. ^ «Goldman Sachs заставляет Elasticsearch работать — InformationWeek» . Информационная неделя . Проверено 21 июня 2017 г.
  8. ^ «Изучение полярных данных с помощью Apache Tika». Opensource.com . Проверено 15 апреля 2016 г.
  9. ^ «Извлечение текста для Drupal с помощью Tika | Drupal.org» . www.drupal.org . 30 июля 2012 года . Проверено 15 апреля 2016 г.
  10. ^ «Преобразование контента и извлечение метаданных с помощью Apache Tika — alfrescowiki» . wiki.alfresco.com . 5 июня 2015 г. Проверено 15 апреля 2016 г.
  11. ^ Фокс-Брюстер, Томас. «От зашифрованных дисков к облаку Amazon — удивительный полет панамских документов». Форбс . Проверено 15 апреля 2016 г.