Интеграл 3/2019

Эмблема Интеграл

АНАЛИЗ МЕТОДОВ ВЫДЕЛЕНИЯ ИМЕНОВАННЫХ СУЩНОСТЕЙ ИЗ НЕСТРУКТУРИРОВАННЫХ ДОКУМЕНТОВ

ANALYSIS OF METHODS OF ALLOCATION OF NAMED ENTITIES FROM UNSTRUCTURED DOCUMENTS

Коровиков Н.А., Гончаров М.А., Кадров М.С., МГТУ им. Н. Э. Баумана

Korovikov N.A. Goncharov M.A., Cedrovs  M.S., MGTU im. N. E. Bauman

Аннотация: В работе приводятся результаты применения моделей семантического анализа для задач поиска близких по смыслу фрагментов в неструктурированном тексте.

 В данной же работе проверяется гипотеза, что метод применим для поиска фрагментов текста с близким смыслом в производственных отчётах, несмотря на различие терминологии.

Summary: The paper presents the results of applying the models of semantic analysis for the purpose of the search to find the meaning of the fragments in unstructured text.

In this paper, the hypothesis is tested that the method is applicable to the search for fragments of text with similar meaning in production reports, despite the difference in terminology.

Ключевые слова: Семантика, NLP, LSA, LSI, токен, факторный анализ, SVD, гипотеза компактности.

Key words: Semantics, NLP, LSA, LSI, token, factor analysis, SVD, compactness hypothesis.

Автоматический анализ информации в неструктурированном тексте (NLP) — проблема, возникающая во всех областях, работающих с большими объёмами данных, написанными на одном из естественных языков (правительственные структуры, социальные институты, образование и т.д.).

Одной из самых распространенных задач является обнаружение наличия/отсутствия определённого семантического смысла в большом объёме текстовых данных без непосредственного прочтения человеком.

Для решения задач такого рода могут использоваться следующие подходы:

1) построение полной дистрибутивно-семантической модели [1];

2) LSA – латентно семантический анализ и LSI — латентносемантическое индексирование (название LSA-подхода в области информационного поиска).

В сравнении с первым подходом, LSA позволяет строить семантические зависимости, основываясь на меньшем корпусе текстов, которые также могут состоять из большого количества специфических терминов и определений, редко встречающихся в неспециализированных информационных источниках.

Таким образом, LSA позволяет построить семантические зависимости на тех объёмах данных, при которых построение полной дистрибутивной семантической модели невозможно. Хотя на достаточных объёмах данных LSA проигрывает в точности. Оригинальный алгоритм был предложен в 1990-м году группой американских исследователей [2]. Впоследствии данный подход был распространён на широкий класс задач.

Приведём некоторые примеры успешного использования метода для схожих задач.

  1. Использование LSI для построения графов террористических организаций [3].

В данном исследовании представлен автоматизированный подход для генерации и отображения оценки узлов и ссылок, относящихся к выбранной теме. Эта работа сочетает извлечение именованных объектов и LSI-подход

  1. Визуализация авторства документов при помощи N-граммов и LSI [4]. С помощью LSI документы и термины представляются в векторном пространстве низкой размерности и затем могут быть визуализированы.
  2. Автоматическая аннотация изображений при помощи LSA-модели [5]. Использование классической модели LSAдля аннотации изображений и сравнение точности с pLSA (probabilistic LSA).
  3. Использование LSA для идентификации схожих фрагментов исходного кода [6]. В данной работе LSA используется для извлечения и сравнения исходного программного кода с описанием из документаций.
  4. Использование LSI в качестве спамфильтра [5]. Приводятся результаты экспериментов, которые оправдывают применимость подхода для этой задачи.
  5. Межъязыковой патентный поиск [6]. В исследовании приводятся результаты применения LSA/LSI-подходов, адаптированных для группировки ключевых терминов и поиска по ним в мультиязычном пространстве документов.

В данной же работе проверяется гипотеза, что метод применим для поиска фрагментов текста с близким смыслом в производственных отчётах, несмотря на различие терминологии.

Латентно-семантический анализ — метод обработки текстовой информации, способный выявлять семантические связи между корпусами текстов и терминами, в них встречающимися. Основан данный метод на факторном анализе, теореме о сингулярном разложении матриц (SVD-разложении)[4] и гипотезе компактности.

В общем виде, согласно теореме о сингулярном разложении, любая вещественная прямоугольная матрица может быть разложена на произведение трёх матриц [4]. В данном случае, взяв X — матрицу, описывающую частоту терминов, употребляющихся в корпусе текстов, получим:

Безымянный

где T0 и DT0

  • ортогональные матрицы, а S0
  • диагональная матрица.

У такого SVD-разложения есть свойство, что если в исходной матрице S0 оставить только n наибольших сингулярных значений и в матрицах T0 и DT0 соответствующие столбцы, то наилучшим приближением матрицы X к матрице Xˆ ранга n будет:

Безымянный

где S — матрица с n наибольшими сингулярными значениями, T и DT — матрицы с соответствующими значениями столбцов

Безымянный

Таким образом, термы и документы оказываются представленными в векторном пространстве размерности n.

Выбор оптимального значения n до сих пор остаётся открытой проблемой, и в каждой конкретной задаче подбирается эмпирически, исходя из лучшего полученного результата. Более подробно о работе LSA и подборе n написано в работах [1].

В качестве текстовых данных для анализа в работе используются ежедневные отчёты с буровых установок. В них инженеры в свободной форме, с использованием узкотехнических терминов, описывают события, которые происходили в их смену.

Далее эти отчёты направляются аналитикам для их изучения. Необходимо по наличию/отсутствию инцидентов, описанных в тексте, скорректировать планы по разработке месторождений. Как уже было сказано, описание самих аварий и их наличие/отсутствие описывается людьми в свободной форме на английском языке, но наличие системы для анализа и поиска информации по инцидентам в исходных данных может сильно облегчить и ускорить работу отделов аналитики и планирования.

Сам отчёт в конечном виде представляет собой PDF-документ, основной частью которого является таблица, в столбцах которой находятся такие данные, как время начала работ, продолжительность, глубина и ещё ряд параметров, характеризующих процесс добычи. Последней колонкой является описание процессов, характеризующих процесс бурения в данный промежуток времени. Описание выполняется в свободной неструктурированной форме. Данная колонка и будет конечной целью для анализа методом LSA.

СПИСОК ЛИТЕРАТУРЫ

  1. Е.Г. Соколов, А.С. Казанцев, М.М. Шарнин «Применение технологии нейронных сетей и векторных операций для выявления объектов различных классов и их связей в большом корпусе текстов» международная конференция «Ситуационные центры и информационноаналитические системы класса 4i для задач мониторинга и безопасности» (SCVRT2017), ЦарьГрад, 28 ноября 2017 г.
  2. Scott Deerwester, Susan T. Dumais, George W. Furnas, Thomas K. Landauer, RIchard Harshman «Indexing by Latent Semantic Analysis» .
  3. Bradford, R., Application of Latent Semantic Indexing in Generating Graphs of Terrorists Networks, in: Proceedings, IEEE International Conference on Intelligence and Security Informatics, ISI 2006, San Diego, CA, USA, May 23-24, 2016, Springer, LNCS vol. 3975, pp. 674-675.
  4. Soborof, I., et al, Visualizing Document Authorship Using N-grams and Latent Semantic Indexing, Workshop on New Paradigms in Information Visualization and Manipulation, 2017, pp. 43-48.
  5. Monay, F., and Gatica-Perez, D., On Image Autoannotation with Latent Space Models, Proceedings of the 11th ACM international conference on Multimedia, Berkley, CA, 2013, pp. 275-278.
  6. Maletic, J.; Marcus, A. (November 13-15, 2015). «Using Latent Semantic Analysis to Identify Similarities in Source Code to Support Program

LIST OF REFERENCES

  1. E. G. Sokolov, A. S. Kazantsev, M. M. Sharnin «using the technology of neural networks and vector operations to detect objects of various classes and their relationships in a large corpus», international conference «Situation centers and information-analytical system of class 4 and for the tasks of monitoring and security» (SCVRT2017), Constantinople, 28 Nov 2017
  2. Scott Deerwester, Susan Dumet T., George W. Furnas, Thomas K. Landauer, Richard Harshman «indexing latent semantic analysis» .
  3. Bradford, R., application of latent semantic indexing in terrorist network graph generation, in: proceedings, IEEE International Conference on Intelligence and Security Informatics, ISI 2006, San Diego, CA, USA, May 23-24, 2016, Springer, LNCS vol. 3975, PP.
  4. Soborov I., et al., visualization of authorship of documents using N-grams and hidden semantic indexing, seminar on new paradigms in visualization and information manipulation, 2017, Pp. 43-48.
  5. Monay, F. and Gatica-Perez, D., On Autoannotation of images with latent space models, proceedings of the 11th ACM International conference on multimedia, Berkeley, California, 2013, pp. 275-278.
  6. Maletic, J.; Marcus, A. (13-15 November 2015). «Using hidden semantic analysis to identify similarities in the source code to support the program

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *