Apache Tika — это платформа обнаружения и анализа контента , написанная на Java и управляемая Apache Software Foundation . [1] Он обнаруживает и извлекает метаданные и текст из более чем тысячи различных типов файлов , а также предоставляет библиотеку Java , имеет серверные версии и версии для командной строки, подходящие для использования с другими языками программирования.
Проект возник как часть кодовой базы Apache Nutch для обеспечения идентификации и извлечения контента при сканировании . В 2007 году он был выделен, чтобы сделать его более расширяемым и удобным для использования системами управления контентом , другими веб-сканерами и системами поиска информации. Автономную компанию Tika основали Жером Шаррон, Крис Маттманн и Юкка Зиттинг. [2] В 2011 году Крис Мэттманн и Юкка Зиттинг выпустили книгу Мэннинга «Тика в действии», и проект выпустил версию 1.0.
Tika предоставляет возможности для идентификации более 1400 типов файлов из таксономии типов MIME Управления по присвоению номеров в Интернете . Для большинства наиболее распространенных и популярных форматов [3] Tika обеспечивает возможности извлечения контента, метаданных и идентификации языка.
Он также может получать текст из изображений с помощью программного обеспечения OCR Tesseract . [4]
Хотя Tika написана на Java , она широко используется и на других языках. [5] Сервер RESTful и инструмент CLI позволяют программам, не использующим Java, получать доступ к функциям Tika.
Tika используется финансовыми учреждениями, включая Fair Isaac Corporation (FICO), [6] Goldman Sachs, [7] NASA и академическими исследователями [8] , а также основными системами управления контентом, включая Drupal , [9] и Alfresco (программное обеспечение) [10]. ] для анализа больших объемов контента и предоставления его в распространенных форматах с использованием методов поиска информации.
4 апреля 2016 года [11] Forbes опубликовал статью, в которой Tika названа одной из ключевых технологий, используемых более чем 400 журналистами для анализа 11,5 миллионов утекших документов, раскрывающих международный скандал с участием мировых лидеров, хранящих деньги в оффшорных подставных корпорациях . Утечка документов и проект по их анализу получили название « Панамские документы» .