Наука в ABBYY

ABBYY тесно взаимодействует с наукой: изучает и применяет новейшие научные достижения, проводит собственные научные исследования, является участником и организатором многих научных событий.

Компьютерная лингвистика и NLP (Natural Language Processing)

Компьютерная лингвистика – это область исследований, ориентированная на создание языковых моделей разной степени аналитичности, от грамматик до эмбеддингов. NLP – это решение конкретных задач анализа естественного языка в различных пользовательских сценариях. Это разделение достаточно условно, но хорошо передает и некоторое различие в целях, и идею взаимодействия: решение задач интеллектуального анализа документов безусловно требует применения компьютерных языковых моделей.

ABBYY много лет работает в этих областях, обладая уникальной технологической базой: системой семантико-синтаксического анализа Compreno, применяемой не только как базовая языковая технология в продуктах компании, но и как инструмент проведения открытых научных исследований. Прежде всего – как средство автоматического создания обучающих датасетов с нетривиальной языковой разметкой.

Основные направления исследований

Features 272B3 55X55

Определение функциональных типов текстов

Argumentation Mining. Bias/ Propaganda/ Fake News Detection.

Features 270Lb3 55X55

Syntactic&Semantic Parsing

Эксперименты с новыми технологиями синтаксической и семантической разметки текстов.

Features-201lb3-55x55

Classification

Задачи нетематической классификации, например определение социолингвистических и жанровых характеристик текстов, установление авторства.

Features 232B3 55X55

Embeddings

Исследование дифференциальных свойств эмбеддингов, основанных на разных типах языковых моделей и разных обучающих корпусах.

Features-163b3-55x55

Information Extraction (traditional & end-to-end)

Извлечение информации из текста, как традиционное: Relation Extraction (выделение в тексте отношений) и Named Entity Recognition (распознавание именованных сущностей), - так и end-to-end решения, позволяющее получать различные интегральные характеристики текста без специфической разметки (например,  сентиментные отношения без  сентиментной разметки отдельных предложений в тексте).