Конференции и семинары

Актуальные проблемы системного описания китайского языка

Семинар проводится Институтом Лингвистики РГГУ и компанией ABBYY и посвящен проблемам создания методических, лексикографических и лингвистических описаний китайского языка на основе современных типологически обоснованных лингвистических концепций.

Приглашенный докладчик
Юй Шивэнь с докладом «Современные лингвистические и лексикографические ресурсы в Китае (словари, тезаурусы, онтологии, корпуса)»

Материалы для скачивания

Презентация (PDF; 1 Mb)

Время:
Местоположение:
Московский офис ABBYY

Актуальные проблемы компьютерной лингвистики: Current Trends in Data-Driven Dependency Parsing

Ведущий специалист в области статистического парсинга, основанного на грамматиках зависимостей, познакомит аудиторию семинара с новейшими тенденциями в этом одном из самых перспективных направлений мировой компьютерной лингвистики. Дополнительный интерес для российской публики имеет то, что грамматика зависимостей всегда была в центре внимания российских лингвистов, в то время как весь мир был под обаянием грамматики составляющих, «продвигаемых» Ноамом Хомским и его многочисленными последователями. В этом смысле направление, представляемое Нивре  имеет очевидный «россйиский след».

Приглашенный докладчик
Йоаким Нивре с докладом «Current Trends in Data-Driven Dependency Parsing»

Время:
Местоположение:
Московский офис ABBYY

Актуальные проблемы компьютерной лингвистики: Лингвистическое аннотирование текстов (корпусов)

Лингвистическое аннотирование является сегодня центральной  темой, объединяющей интересы  теоретических и компьютерных лингвистов.  Разметка корпусов нужна как для задач машинного обучения систем NLP, так и для получения собственно лингвистических результатов.

Приглашенные докладчики
Diana McCarthy с докладом «Graded Annotations of Word Meaning in Context»
Eduard Hovy с докладом «Toward a Science of Annotation»

Материалы для скачивания

Презентация Дианы (pdf; 789 Kb)

Презентация Хови (ppt; 4,73 Mb)

Время:
Местоположение:
Ул. Олонецкая, д.15а

Актуальные проблемы компьютерной лингвистики: Лингвистическое аннотирование текстов (корпусов).

Известно, что Интернет содержит большое количество текстов на разных языках.  Самый простой способ сделать утверждение о том или ином лингвистическом феномене состоит в указании числа страниц, найденных поисковой машиной.  Несмотря на простоту, такой подход имеет свои ограничения как на то, что можно найти (такие, как ограничение поиска по определенным жанрам или по частям речи), так и в отношении надежности результатов.  Второй способ состоит в автоматизированном сборе большого корпуса на основе текстов Интернета и оценке его содержания с помощью методов машинного обучения.

На семинаре были описаны способы быстрого сбора корпусов в нужной области, подходы к автоматической классификации текстов по предметным областям и жанрам с помощью таких методов, как Support Vector Machines (SVM), Topic Modeling, Multidimensional Scaling.  Помимо количественной оценки качества методов необходимо также проводить качественную оценку соответствия результатов классификации языковой интуиции.  На семинаре были приведены примеры использования методов создания и обработки корпусов для русского, английского, китайского и немецкого языков.

Приглашенный докладчик
Сергей Шаров с докладом «Web as Corpus, Подходы к количественному и качественному анализу текстового содержания Интернета» 

Материалы для скачивания

Видеозапись семинара

Презентация (PDF; 1 Mb)

Время:

Актуальные проблемы компьютерной лингвистики: «Тезаурус РуТез: структура и приложения»

Семинар был посвящен описанию структуры тезауруса русского языка РуТез, который представляет собой крупнейшую лингвистическую онтологию, используемую для автоматической обработки текстов. В докладе было проведено сопоставление структуры тезауруса с другими подобными проектами: традиционными информационно-поисковыми тезаурусами, тезаурусами типа WordNet, формальными онтологиями. На семинаре были рассмотрены приложения автоматической обработки текстов, в которых используется тезаурус РуТез.

Наталья Лукашевич – кандидат физико-математических наук, ведущий научный сотрудник НИВЦ МГУ. Под ее руководством и при непосредственном участии разрабатываются такие лингвистические ресурсы, как Тезаурус русского языка РуТез, Онтология по естественным наукам и технологиям ОЕНТ, созданы онтологические ресурсы в конкретных предметных областях (компьютерная безопасность, авиационная сфера, банковское дело и др.).

Данные ресурсы применяются в различных технологиях автоматической обработки текстов: автоматическое концептуальное индексирование, расширение поискового запроса, рубрицирование, автоматическое аннотирование отдельных документов и групп тематически близких документов, кластеризация документов.

Исследования, связанные с представлением знаний о языке и предметной области, были поддержаны грантами Фонда МакАртуров, Фонда Форда, российских научных фондов РФФИ и РГНФ, стипендиями компании Яндекс. Созданные ресурсы и технологии использовались в проектах, выполненных для ряда государственных и коммерческих организаций.

Расписание

16.30-17.00

Регистрация участников.
Встречный кофе-брейк

17.00-19.00

Доклад Натальи Лукашевич
и дискуссия

Приглашенный докладчик
Наталья Лукашевич с докладом «Тезаурус РуТез: структура и приложения»

Материалы для скачивания

Презентация (PPT; 1 Mb)

Время:
Местоположение:
Московский офис ABBYY, ауд. 3-02

Актуальные проблемы компьютерной лингвистики: «Сегментно-статистический подход к Интернету как корпусу (на примере анализа блогосферы)»

Доклад посвящен разумным методам извлечения достоверной лингвистической информации из Интернета.

В очередной раз утверждается, что широко распространенный метод получения интернет-статистики методом «гугления» бессодержателен. Без детализации демонстрируется антинаучность основанного на подобных приемах направления «гуманетика» [М. Эпштейн 2006]. Вопреки голословным утверждениям автора, его же методами легко продемонстрировать, что документов с упоминанием Пушкина «больше», чем таковых с Shakespeare’ом (скриншоты от 24.01.2011; есть аналогичные от 9.01.2011 и 10.08.2011):

В докладе проводится сравнительный анализ НКРЯ и различных интернет-корпусов как источников сведений о разнородном русском лексическом узусе.

На материале русских толковых словарей и отдельных лингвистических исследований анализируются типичные ошибки и неточности, ставшие результатом игнорирования современных корпусных методов в лексикографии.

Рассматривается сегментная структура русскоязычной блогосферы, демонстрируются разнообразные результаты ее анализа сегментно-статистическим методом при исследовании синхронного состояния и динамики изменений в общерусской и региональной лексике, фразеологии, грамматике.

Детально излагается методика лингвистически ориентированного поиска в блогосфере и способы преодоления возникающих при этом трудностей. Намечаются сегментно-статистические подходы к извлечению экстралингвистической информации из блогосферы, выявлению динамики культурных процессов среди блоггеров.

Расписание

16.30-17.00

Регистрация участников.
Приветственный кофе-брейк

17.00-19.00

Доклад Владимира Беликова
и дискуссия

Приглашенный докладчик

Владимир Беликов с докладом «Сегментно-статистический подход к Интернету как корпусу (на примере анализа блогосферы)»

Материалы для скачивания

Видеозапись семинара

Время:
Местоположение:
Московский офис ABBYY, ауд. 3-02

Актуальные проблемы компьютерной лингвистики

29 мая в 15.00 в московском офисе ABBYY в ауд. 3-02 будет проходить очередной открытый семинар ABBYY Open.  

Регистрация закрыта, по всем вопросам пишите на abbyy-open@abbyy.com.

На этот раз докладчиков будет двое

Дэн Молдован (Dan Moldovan) с докладом «Building Ontologies Automatically: Theory and Demonstration» рассмотрит алгоритмы, инструменты и современные технологии автоматического построения онтологий. 

Джон Кэрролл (John Carroll) с докладом «Natural Language Processing of Ephemeral Text», в котором он рассматривает проблему обработки нестандартных текстов (например, текстов, составленных не носителями языка или текстов sms-сообщений и т.п.), а также представит ряд научно-исследовательских и коммерческих приложений, используемых для этих целей.  

Обращаем ваше внимание, что на конференции «Диалог-2012», стартующей 30 мая, эти специалисты будут выступать с докладами на другие темы

Приглашенные докладчики

Дэн Молдован (Dan Moldovan) – профессор компьютерных наук Техасского Университета в Далласе (США), содиректор Human Language Technology Research Institute.  

Джон Кэрролл (John Carroll) - профессор компьютерной лингвистики из Университета Сассекса (Великобритания).

Расписание

15.00-15.30 Регистрация участников. Встречный кофе-брейк
15.30-17.00 Доклад Дэна Молдована и дискуссия
15.30-17.00 Перерыв
17.30-19.00 Доклад Джона Кэрролла и дискуссия


Материалы для скачивания

Презентация (PPT; 7MB)

Время:
Местоположение:
Офис компании ABBYY, аудитория 3-02

Актуальные проблемы компьютерной лингвистики: «Семантические модели в задачах поиска и анализа документов»

28 мая в 15.00 в офисе компании ABBYY в рамках  семинара ABBYY Open «Актуальные проблемы компьютерной лингвистики» состоится очередное заседание, посвященное использованию семантических моделей в задачах  поиска и анализа документов. 

Приглашенные докладчики:

Грэгори Грефенштетт  (Gregory Grefenstette) с докладом «Applied Semantics in Search».  

О докладчике

Gregory Grefenstette is on the Strategy Team of Exalead/Dassault Systèmes after serving as Chief Science Officer at Exalead. He received his B.S. from Stanford University in 1978, and a Ph.D. in Computer Science from the University of Pittsburgh in 1993. He has been Principal Scientist at the Xerox Research Centre (1993-2001), with Clairvoyance (2001-2003) and at the French applied research centre, the CEA (2001-2008). His research interests range from most subjects in Natural Language Processing to all aspects of Information Retrieval. He serves on the editorial board of the Journal for Natural Language Engineering, and he edited the first book on Cross Language Information Retrieval (Kluwer 1998). 

Аннотация к докладу

Semantics covers a wide variety of meanings in Linguistics and Natural Language Processing. This talk will present success stories in semantic processing that have been incorporated in search engines, and will describe what still needs to be done.

Презентация (25,1 MB, .pptx)

Льюис Маркес (Lluís Màrquez) с докладом «Exploring Challenges in Semantic Role Labeling». 

О докладчике

Lluís Màrquez  is Associate Professor at the Technical University of Catalonia (UPC) since 2000. PhD. in Computer Science (UPC 1999; awarded the UPC prize for doctoral dissertations in Computer Science). His research focuses on Machine Learning methods for Natural Language structure prediction problems, including syntactic and semantic parsing, and applications to statistical machine translation and its evaluation. He has 100+ papers in Natural Language Processing and Machine Learning journals and conferences. He has been Program Co-chair of major conferences in the area (EACL, EMNLP, CoNLL, EAMT, etc.), Area Chair of ACL several times and co-organizer of various international evaluation tasks at Senseval/SemEval (2004, 2007, 2010) and CoNLL shared tasks (2004-2005, 2008-2009). Secretary and President of the ACL SIG on Natural Language Learning (SIGNLL) in the period 2007-2011 and Chair-elect of the European Chapter of the ACL for the period 2013-2015. He has been Guest Editor of special issues at Computational Linguistics, Language Resources and Evaluation, and the Journal of Natural Language Engineering (2007, 2008 and 2012, respectively). He has participated in 18 national and EU research projects, acting as the principal site researcher in 10 of them. 

Аннотация к докладу

Semantic Role Labeling (SRL) consists of detecting basic event structures such as "who'" did "what"' to "whom"', "when"' and "where"'. From a linguistic point of view, the task corresponds to identifying the semantic arguments filling the roles of sentence predicates. The identification of such event frames should significantly impact many NLP applications, such as Information Extraction, Question Answering, Summarization and Machine Translation. In this talk we will overview some of the current challenges of the task and present recent research in two different directions. First, we explore the use of "more semantic" features for SRL. In particular, we will see how selectional preferences can be used to effectively generalize lexical features and improve results on semantic role classification. Second, we will present a novel arc-factored model for jointly parsing syntactic and semantic dependencies. The semantic role labeler predicts full syntactic paths that connect predicates with their arguments. This process is framed as a linear assignment task, which allows to control some well-formedness constraints. The syntactic part is a standard arc-factored dependency model that predicts the full syntactic tree. Finally, dual decomposition techniques are used to produce consistent syntactic and predicate-argument structures while searching over a large space of syntactic configurations.

Презентация (537 KB, .pdf)

Обращаем ваше внимание, что на конференции Диалог 2013, стартующей 29 мая, эти специалисты будут выступать с докладами на другие темы.

Расписание

15.00-15.30

Регистрация участников. Встречный кофе-брейк

15.30-17.00

Доклад Грэгори Грефенштетта и дискуссия

17.00-17.30

Перерыв

17.30-19.00

Доклад Льюиса Маркеса и дискуссия

Время:
Местоположение:
Офис ABBYY: м.Отрадная, д.2Б, стр.6, аудитория 3-02.

Актуальные проблемы компьютерной лингвистики «Composition in distributional semantics»

03 июня в 15.30 в офисе компании ABBYY в рамках семинара ABBYY Open «Актуальные проблемы компьютерной лингвистики» состоится очередное заседание, посвященное дистрибуционной (корпусной) семантике. 

Приглашенный докладчик

Марко Барони  (Marco Baroni), один из наиболее известных в мире специалистов по дистрибуционной (корпусной) семантике, с докладом «Composition in distributional semantics».  

О докладчике

Marco Baroni is an associate professor in the Language, Interaction and Computation Laboratory group of the Center for Mind/Brain Sciences and a member of Department of Information Engineering and Computer Science of the University of Trento, Ph.D. in Linguistics. His main research topic is distributional semantics. He is exploring the idea that human conceptual (semantic) knowledge is, to a considerable extent, the result of the extraction of simple distributional information from large amounts of linguistic input.

Аннотация к докладу

Distributional Semantic Models (DSMs) automatically extract word meaning representations from large collections of text (corpora), by exploiting the intuition that if two words are similar in meaning they will occur in similar linguistic contexts, so that we can use the sets of contexts in which words occur as surrogates for their meaning representations. DSMs implement this strategy by representing word meanings with vectors that keep track of how many times words have occurred in various contexts in a corpus. Thanks to the vectorial representation of distributions, DSMs can then use standard geometric techniques to quantify degrees of semantic relatedness (for example, by measuring the width of the angle formed by the vectors associated to the words of interest) and other semantic properties of words.

DSMs have been applied to an increasingly sophisticated array of psycholinguistic and lexical-semantic tasks, such as predicting similarity judgments and semantic priming, categorizing basic-level nominal concepts, discovering the qualia roles of nouns, modeling the selectional preferences of verbs and spotting their alternation classes. Despite these empirical successes, DSMs have however been criticized because they are limited to single words and do not model compositionality, our ability to produce and understand an unlimited number of phrases and sentences by combining the meanings of their constituents. In part to address this criticism, in part because handling phrases and sentences would pave the way to important practical applications (ranging from paraphrase detection to improving syntactic parsing to machine translation), the DSM community has recently started to pay attention to composition, and how it can be captured with distributional methods. The proposed compositional DSM

(cDSM) frameworks range from simple strategies that combine word vectors into phrase vectors via basic arithmetic operations to more sophisticated approaches that, taking inspiration from formal semantics, characterize composition in terms of function application.

In my seminar, after a brief general introduction to DSMs, I will introduce some cDSM frameworks, focusing on the functional approach, and I will discuss some of the empirical challenges in (computational) linguistics and cognitive science that are being pursued using them. I will also discuss the broader theoretical implications of cDSMs, and what are the main issues they must face in the future.

 

Обращаем ваше внимание, что на конференции «Диалог 2014», стартующей 04 июня, Марко Барони выступит с докладом на другую тему.

Чтобы посетить офис ABBYY, обязательно иметь при себе паспорт.

Расписание
15:30-16:00 Сбор участников, кофе-брейк
16:00-17:30 Доклад Марко Барони
17:30-17:45 Кофе-брейк
17:45-19:00 Продолжение доклада и дискуссия

Материалы для скачивания

Презентация (PDF; 2,46 MB)

Время:
Местоположение:
Офис ABBYY: м.Отрадная, д.2Б, стр.6, аудитория 3-02.

Interactive Learning with TREE: Teachable Relation and Event Extraction System

Приглашенный докладчик

Анатолий Гершман  (Anatole Gershman),  с докладом « Interactive Learning with TREE: Teachable Relation and Event Extraction System ».  

О докладчике

Anatole Gershman is a Distinguished Career Professor at Language Technologies Institute. He received his Ph.D. in Computer Science from Yale University in 1979. His research interests are focused on the applications of Artificial Intelligence techniques to solving information-intensive real-world problems. Prof. Gershman joined the LTI faculty in 2007 after spending his entire professional career in industrial R&D starting at Bell Laboratories and culminating as Director of Research and Chief Scientist at Accenture. He published over 50 articles and has been awarded 12 US patents. At LTI, Prof. Gershman is conducting research in information integration, reasoning under uncertainty and interactive active learning.

Аннотация к докладу

Information extraction, and specifically event and relation extraction from text, is an important problem with many applications. Current solutions typically require large amounts of training data, extensive feature engineering and considerable skills to introduce new events. We describe a novel Interactive Learning approach that greatly reduces the number of training examples, requires no feature engineering and is accessible to users without specialized training in text analytics. In our early experiments, users achieved event detection precision in the 80 to 90% range after only 1 hour of working with the system.

Расписание
16:30-16:45 Сбор участников, кофе-брейк
16:45-19:00 Доклад Анатолия Гершмана

Материалы для скачивания

Видеозапись семинара

Время:
Местоположение:
Офис ABBYY: м.Отрадная, д.2Б, стр.6, аудитория 2-16

The Web as an Implicit Training Set

The 60-year-old dream of computational linguistics is to make computers capable of communicating with humans in natural language. This has proven hard, and thus research has focused on sub-problems. Even so, the field was stuck with manual rules until the early 90s, when computers became powerful enough to enable the rise of statistical approaches. Eventually, this shifted the main research attention to machine learning from text corpora, thus triggering a revolution in the field.

Today, the Web is the biggest available corpus, providing access to quadrillions of words; and, in corpus-based natural language processing, size does matter. Unfortunately, while there has been substantial research on the Web as a corpus, it has typically been restricted to using page hit counts as an estimate for n-gram word frequencies; this has led some researchers to conclude that the Web should be only used as a baseline.

In this talk, we will reveal some of the hidden potential of the Web that lies beyond the n-gram, with focus on the syntax and semantics of English noun compounds. First, we will present a highly accurate lightly supervised approach based on surface markers and linguistically-motivated paraphrases that yields state-of-the-art results for noun compound bracketing: e.g., "[[liver cell] antibody]" is left-bracketed, while "[liver [cell line]]" is right-bracketed. Second, we will present a simple unsupervised method for mining implicit predicates that can characterize the semantic relations holding between the nouns in noun compounds, e.g., "malaria mosquito" is a "mosquito that carries/spreads/causes/transmits/brings/infects with/... malaria". Finally, we will show how these ideas can be used to improve statistical machine translation.

Приглашенный докладчик

Преслав Наков  (Preslav Nakov),  научный сотрудник Катарского вычислительного исследовательского института (Qatar Computing Research Institute, Qatar Foundation), с докладом  The Web as an Implicit Training Set.

Материалы для скачивания

Видео

Время:
Местоположение:
Офис ABBYY: м.Отрадная, д.2Б, стр.6, аудитория 2-16.

Использование Кукис. Компания ABBYY использует кукис, чтобы оптимизировать работу и функциональность этого сайта и улучшить уровень использования вами этого сайта. Продолжая пользоваться этим сайтом, вы соглашаетесь на использование кукис Компанией ABBYY. Дополнительную информацию в отношении использования кукис можно найти в Политике Кукис.