Big Mechanism — это исследовательская программа DARPA стоимостью 45 миллионов долларов , начатая в 2014 году, направленная на разработку программного обеспечения , которое будет читать исследовательские работы по раку , интегрировать их в модель рака и формулировать новые гипотезы к концу 2017 года посредством автоматизированного сбора больших данных и интеграции в различные дисциплины, такие как основанная на знаниях обработка естественного языка , кураторство и онтология , системы и математическая биология, путем чтения исследовательских рефератов и статей для извлечения фрагментов причинно-следственных механизмов. [1]
Программа фокусируется на мутациях в семействе генов Ras , которые лежат в основе примерно одной трети случаев рака у человека. В настоящее время грубая дорожная карта показывает последовательности взаимодействия между белками, влияющими на репликацию и смерть клеток . Однако причинно-следственные связи плохо изучены. [1]
Программа должна проходить в три этапа. Первый этап — чтение литературы и преобразование ее в формальные представления. Второй этап — интеграция знаний в вычислительные модели . Третий этап — создание экспериментально проверяемых объяснений и предсказаний. Исследовательские группы разрабатывают четыре отдельные системы, нацеленные на все три задачи. [1]
В феврале 2015 года на оценочном совещании был рассмотрен прогресс на первом этапе. Было рассмотрено несколько задач. Одна из них заключалась в извлечении деталей экспериментальной процедуры и оценке утверждений, таких как «мы демонстрируем» и «мы предлагаем». Другая работала над картированием смысла предложений и отношений. Лучшая система машинного чтения извлекла 40% релевантной информации из небольшого корпуса и правильно определила, как каждый отрывок связан с моделью. [1]
Вторая стадия должна стать активной летом 2015 года, когда участники попытаются создать единую эталонную модель. Третья стадия самая сложная, поскольку сообщество искусственного интеллекта имело ограниченный успех в разработке генераторов гипотез . Молекулярная биология может быть более податливой, поскольку большинство знаний в этой области являются техническими и доступны в письменной форме. [1]