Интеграл 3/2019

Эмблема Интеграл

УДК 330.43(075.8)

ПРИМЕНЕНИЕ МОДЕЛИ ПУАССОНА ДЛЯ АНАЛИЗА ПАНЕЛЬНЫХ ДАННЫХ

APPLICATION OF THE POISSON MODEL FOR ANALYSIS OF PANEL DATA

Егорова Екатерина Владимировна, Пермский государственный национальный исследовательский университет, г. Пермь

Радионова Марина Владимировна, доцент, кандидат физико- математических наук, Пермский государственный национальный исследовательский университет, г. Пермь  

Egorova E.V., egorovaev97@gmail.com

Radioniva M.V., m.radionova@rambler.ru

Аннотация: В эконометрических исследованиях на практике нередко ставится задача моделирования величины, которая является дискретной, а именно отражает количество редких событий, произошедших за определенный период времени, при условии, что данные события происходят самостоятельно и раздельно друг от друга, с фиксированной средней интенсивностью. Из всех моделей, которые применяются для исследования таких данных, чаще всего используется Пуассоновская регрессия.

В данной статье описываются основные теоретические аспекты модели Пуассона и применение Пуассоновской регрессии для анализа панельных данных, а также практический пример использования, в котором смоделировано число новых производственных технологий по регионам России за период 2013-2017 г. в программе R.

Summary: Econometric studies in practice often pose the problem of modeling a quantity that is discrete, namely, it reflects the number of rare events that have occurred over a certain period, provided that these events occur independently and separately from each other, with a fixed average intensity. The Poisson regression is most often used of all the models that are used to study such data. 

This article describes the main theoretical aspects of the Poisson model and the use of Poisson regression for the analysis of panel data, as well as a practical example of use, which modeled the number of new production technologies for the regions of Russia for the period 2013-2017 in program R.

Ключевые слова: Пуассоновская регрессия, эконометрическое моделирование, панельные данные, новые производственные технологии.

Key words: Poisson regression, econometric modeling, panel data, new production technologies.

Введение и обзор литературы

В эконометрических исследованиях на практике нередко ставится задача моделирования величины, которая является дискретной, а именно отражает количество редких событий, произошедших за определенный период времени, при условии, что данные события происходят самостоятельно и раздельно друг от друга, с фиксированной средней интенсивностью. В силу дискретности зависимой переменной линейные модели, связывающие количество событий с сопровождающими их регрессорами, не будут соответствовать реальным. Это связано с тем, что при выборе линейной модели расчетные значения зависимой переменной имеют все шансы принимать любые, время от времени нецелые значения [1]. Модели, используемые при исследовании процессов, связанных со «счетными переменными», называются моделями счетных данных. Существует несколько видов, такие как: модель преодоления препятствий , пуассоновская регрессия и ее модификация — модель с отрицательным биномиальным распределением.

Из всех моделей счетных данных на практике чаще всего используется Пуассоновская регрессия. Одним из первых случаев применения Пуассоновской регрессии является моделирование входящих телефонных звонков на коммутатор. После этого были отмечены случаи использования Пуассоновской регрессии при анализе надежности оборудования и предсказании его поломки, предсказание числа полетов, выполненное аэропортом в конкретный день в зависимости от даты, в медицинской сфере для анализа роста колонии бактерий в чашке Петри, предсказании летального исхода болезни при различных условиях, а также в экономике и социологии для анализа разнообразных счетных данных, например, для прогнозирования количества случаев банкротств в зависимости от изменения экономических показателей , а также для анализа разнообразных демографических данных [2].

Спецификация регрессионной модели Пуассона подразумевает, что каждое наблюдаемое значение моделируемого показателя сгенерировано распределением Пуассона с параметром  , который связан с вектором объясняющих переменных .

 Пусть  – вектор параметров уравнения;  – вектор-строка (транспонированный вектор-столбец) независимых переменных, характеризующих условия появления событий, тогда: .

Распределение Пуассона представляет собой вероятностное распределение, моделирующее случайную дискретную величину, которая является количеством повторяющихся событий при том, что эти события возникают с фиксированной средней интенсивностью и вне зависимости друг от друга. Это дискретное распределение, которое является одним из важных предельных случаев биномиального распределения. Второе название Пуассоновского распределения- распределение редких событий. Примерное равенство средней и дисперсии счетной зависимой переменной в выборочной совокупности – обязательное условие применимости пуассоновского распределения. [2]

Согласно следующему выражению можно определить вероятность возникновения числа событий  в следующем виде:

Безымянный

Зависимость числа событий , произошедших за фиксированный временной интервал (tt+1) (день, неделя, месяц), от значений влияющих на это число факторов согласно Пуассоновской модели представляется следующим образом [1]: Безымянный ошибка уравнения .

Условное математическое ожидание числа событий для заданного набора значений Безымянный при нулевом математическом ожидании ошибки определяется как: Безымянный

Условное математическое ожидание и условная дисперсия при заданных значениях факторов Безымянный для модели Пуассона равны между собой [1] : Безымянный

Пуассоновская регрессия очень часто берется за основу в эконометрических исследованиях, охватывая различные области применения. Проанализировав различные научные статьи, можно сделать вывод, что использование модели Пуассона достаточно обширно, области её применения условно можно разделить на три основные группы: медицина, экономика и социально- демографические процессы.

Приведем примеры из каждой сферы.

В статье Д.А. Шапошникова, Б.А. Ревич [3] показано, что Пуассоновская обобщенная линейная модель ежедневной смертности считается наиболее часто встречаемым методом вычисления рисков, которые обусловлены негативными причинами окружающей среды. В предоставленном исследовании рассматриваются инновационные биостатистические методы, позволяющие обнаружить связи между метеорологическими причинами и признаками общественного здоровья. Моделируемой переменной выступает смертность населения, обусловленная действием волн жары и мороза. В регрессионной модели хорошо отслеживается зависимость смертности от времени и загрязнения воздуха, дается рекомендация учитывать это явление. Учет метеорологических условий, оказывающих большое влияние на тепловой баланс (влажность воздуха и скорость ветра), достигается или включением их в модель в очевидном виде, или внедрением биоклиматических индексов. В регрессионном уравнении в качестве зависимой переменной выступает ожидаемая величина ежедневной смертности.

В статье [4] с помощью гравитационной модели Пуассона со смешанными эффектами (модель, где имеются и случайные, и фиксированные эффекты) оценивается отрицательное влияние Брексит (выход Великобритании из Европейского союза) на проекты, связанные с прямыми иностранными инвестициями (сокр. ПИИ). По сравнению с предыдущими исследованиями на эту тему, данная статья представляет собой новшество использования смешанных эффектов модели пуассоновской регрессии на основе панельных данных.  Модель показывает ожидаемое количество событий за период времени, в течении которого они регистрируются. Было построено 3 модели для объяснения количества проектов ПИИ. Моделируемыми переменными являются: количество проектов ПИИ, количество новых рабочих мест, созданных проектами ПИИ и количество гарантированных рабочих мест проектами ПИИ. Эти переменные относятся к проектам и работам, которые привезены основными иностранными инвесторами в Великобританию из различных стран за 2012-2015 гг.

В статье Sunday B. Akpan, Inimfon V. Patrick, Samuel U. James [5] изучаются детерминанты решения и участия сельской молодежи в сельскохозяйственном производстве на примере исследования молодежи в регионе Нигерии. Объектом исследования являлись 300 молодых людей, проживающих в сельской местности штата Аква Ибом, одного из штатов в регионе. Для измерения уровня участия было выбрано количество часов, проведенных молодежью на ферме в день. Количество часов является дискретным и принимает только неотрицательные целые значения, в связи с чем была выбрана модель Пуассона. Возраст молодежи, количество дополнительных визитов, годы в социальной организации, цель ведения сельского хозяйства были положительными факторами участия молодежи в сельскохозяйственной деятельности. Напротив, годы формального образования, доходы фермеров в предыдущем сельскохозяйственном сезоне, владение землей и доступ к кредитам негативно повлияли на участие молодежи.

Использование Пуассоновской регрессии для анализа панельных данных

Рассмотрим применение модели Пуассона для анализа панельных данных с точки зрения теории. Будем описывать модели только с индивидуальными эффектами, не меняющимися во времени, то есть рассмотрим возможность учета специфического индивидуального эффекта, под которым будем подразумевать ненаблюдаемые и неизменяемые со временем характеристики объектов выборки.

Модель с индивидуальными эффектами

Самая общая линейная модель для панельных данных предполагает, что свободный член и коэффициенты наклона могут варьироваться по индивидуальным наблюдениям и во времени:

Безымянный

где Безымянный1 -это скалярная зависимая переменная, Безымянный2 — индивидуальные эффекты, Безымянный3 -вектор независимых переменных,  Безымянный4 

-ошибка модели, i- индивидуальный индекс, t- индекс временного периода.

Для нелинейных моделей, в том числе модели Пуассона, аддитивная ошибка Безымянный4 

не вводится. Вместо этого, более естественно напрямую моделировать условную плотность или условное среднее.

Общая нелинейная модель для условного среднего с ненаблюдаемыми неменяющимися во времени индивидуальными эффектами: 

Безымянный5

В модели Пуассона с индивидуальными эффектами Безымянный6 Тогда предполагая условную независимость, совместная вероятность для i-го наблюдения Безымянный7 равна

Безымянный8

В менее параметрическом подходе условное среднее моделируется как Безымянный9 где Безымянный10  обозначает дополнительные параметры, например, дисперсию. Это относится к одноиндексной модели с индивидуальными эффектами и к модели с мультипликативными эффектами. [6]

Модель сквозной регрессии

В статистической литературе модель называется усредненной моделью, так как в ней в явном виде не присутствует зависимость  от индивидуальных эффектов. Индивидуальные эффекты были неявным образом усреднены. Эта модель является самой ограниченной из возможных, так как предписывает одинаковое поведение всем объектам выборки во все моменты времени. Другими словами, такая модель представляет собой обычную регрессию.

Для моделей условного среднего нелинейный случай сквозной регрессии имеет вид:

Безымянный

Такую модель можно оценить напрямую с помощью нелинейного МНК и использовать статистические выводы, основанные на робастных стандартных ошибках для панельных данных [6].

Модель со случайными эффектами

Предположение о том, что случайные эффекты имеют гамма- распределение, позволяет получить трактуемое решение для вероятности в модели со случайными эффектами. Предположим, что Безымянный1 имеет Безымянный2 распределение со средним 1 и дисперсией Безымянный3 и плотностью Безымянный4 Тогда без условная совместная плотность для наблюдения будет иметь вид  Безымянный

Получившиеся условие первого порядка для оценки Пуассона случайных эффектов можно выразить как Безымянный6

Оценка Пуассона со случайным эффектом состоятельна при выполнении слабого предположения о том, что регрессоры строго экзогенны.

Для случайных эффектов доступно несколько альтернативных оценок.

Во-первых, оценка сквозной регрессии Пуассона игнорирует случайные эффекты и предполагает, что Безымянный В этом случае условие первого порядка будет в виде: Безымянный1

Эта оценка состоятельна, если условное среднее имеет вид описанный выше с Безымянный3,3

Поэтому обычная оценка ММП Пуассона для пространственных данных состоятельна, если истинная модель, это модель с мультипликативными эффектами. Следует использовать робастные оценки. Альтернативная оценка сквозной регрессии, основанная на модели условного среднего- это оценка, полученная с помощью нелинейного МНК. Тогда условие первого порядка будет выглядеть как [6]:

Безымянный3

Модель с фиксированными эффектами

Наиболее часто используется модель Пуассона с фиксированными эффектами, так как оценка этой модели будет состоятельна при гораздо более слабых предположениях о распределении.

Оценку с фиксированным эффектом для модели Пуассона панельных данных можно вывести несколькими данными. Оценка максимального правдоподобия Пуассона одновременно оценивает Безымянный и Безымянный1 Логарифм функции правдоподобия равен: Безымянный2 Взятие производной по Безымянный3 и приравнивание ее к нулю дает Безымянный4 Подставим это обратно в предыдущую формулу и опусти члены, не содержащие Безымянный. Получаем: Безымянный6

При взятии производной по получим условия первого порядка:   Безымянный6

Для решения этого уравнения и нахождения оценки Безымянный используем соответствующие выборочные моментные тождества.

Для состоятельности оценки Пуассона с фиксированными эффектами необходимо чтобы регрессоры были строго экзогенны и модель условного среднего правильно специфицирована. [6]

Методология исследования, данные

В качестве примера использования регрессии Пуассона было смоделировано количество передовых производственных технологий, разработанных в регионе. Появление новых производственных технологий событие редкое, исходя из статистических данных, поэтому исследование этого вопроса является актуальным.

Передовые производственные технологии – технологии и технологические процессы (включая нужное для их реализации оборудование), контролируемые с поддержкою компьютера либо базирующиеся на микроэлектронике и применяемые при конструировании, производстве либо обработке продукции. В современном мире Российская Федерация значительно уступает в уровне введения новейших производственных технологий некоторым развивающимся государствам. Важно иметь сведения о том, какие факторы воздействуют на появление новых производственных технологий.

В наши дни к количеству новых производственных технологий относятся технологии, увеличивающие регулируемость, скорость и отдачу от производственных процессов, и характеризующие новые свойства товаров, — это аддитивные технологии и роботизация, новые материалы, промышленная автоматизация. Все, что объединяет их, — это цифровые технологии, системы автоматического проектирования, инжиниринга и изготовления, то есть промышленное инженерное программное обеспечение.   

На количество и качество новых производственных технологий в России влияют экономические, социальные, политические факторы и не только. Выделим и уточним основные из них, опираясь на статью И. Дежиной, А. Пономарева [7] и публичный аналитический доклад [8].

Безымянный6

Для проведения исследования на панельных данных были выбраны данные по 60 регионам РФ за 2013-2017 год.  Были взяты регионы, где имелась полная статистическая информация обо всех экзогенных переменных и моделируемой величине. Исследование выполнено в R — языке программирования для статистической обработки данных и работы с графикой.

В качестве зависимой переменной выступает количество передовых производственных технологий, разработанных в регионе.

Объясняющие переменные представлены в таблице 1. Источником является сайт Федеральной службы государственной статистики [9].  

На основе выбранных переменных был проведен разведочный анализ данных. В таблице 2 представлены описательные статистики исследуемых переменных.

Безымянный6

Из таблицы 2 видно, что наибольшую вариацию имеет переменная, отвечающая за численность населения, наименьшая вариация у числа выданных патентов. Выявлено, что количество новых производственных технологий принимает значения от 1 до 153 единиц по всем регионам, среднее значение составляет 23,88. Данные неоднородны, так как вариации составляет 66%.

В таблице 3 представлена корреляционная матрица, отражающая коэффициенты корреляции между всеми переменными, участвующими в построении модели.

Безымянный6

На основе анализа таблицы 3 можно сказать, что на появление новых производственных технологий наибольшее влияние оказывает численность персонала, занятого научными исследованиями и разработками. Мультиколлинеарности нет.

Результаты

На основе Пуассоновской регрессии в программе R было построено три модели: модель с фиксированными эффектами, модель со случайными эффектами и сквозная регрессия. После построение моделей с помощью тестов Вальда, Хаусмана и Бройша-Пагана, было выявлено, что наилучшей является модель с фиксированными эффектами, значения коэффициентов которой можно видеть в таблице 4. Это имеет свое логическое обоснование в силу того, что выборка по регионам РФ не случайна, каждый регион имеет свой фиксированный эффект, который может, например, выражаться в особенностях климата. Такие эффекты не меняются во времени и сопровождают регион от года в год.

Так же следует отметить, что так как модель Пуассона нелинейная, при интерпретации коэффициентов во внимание берутся маржинальные эффекты, рассчитанные с помощью аппарата предельного анализа, а не просто найденные коэффициенты.

Безымянный6

Выводы и обсуждение

На основании построенной модели выявлена прямая связь между появлением новых технологий и следующими факторами: средней заработной платой научных сотрудников, количеством человек, проживающих в регионе, числом образовательных организаций высшего образования и научных организаций, внутренними затратами на научные исследования и разработки, численностью персонала, занятого научными исследованиями и разработками. Выявлено, что связь между количеством новых производственных технологий и количеством выданных патентов на изобретения, а также между числом новых технологий и затратами на технологические инновации обратная, что является интересным наблюдением для дальнейших исследований этого вопроса. Исходя из полученных результатов можно сделать вывод, что Россия имеет хорошую перспективу для достижения высокой конкурентоспособности промышленности. Для этого необходимо знать и уметь предсказывать экономические и технологические направления, побуждение к развитию которых позволило бы нашей стране прогрессировать в этом вопросе, а также обращать внимание на те факторы, которые положительно влияют на рост числа новых технологий.

Литература

  1. Тихомиров Н.П., Дорохина Е.Ю. Эконометрика. М.: Изд-во Рос. экон. акад., 2002.- 640 с.
  2. Понарин Э.Д., А.В. Лисовский, Ю.А. Зеликова Модели для Пуассоновских зависимых переменных. Можно ли прогнозировать результативность футбольных матчей? //Cоциология: 4М. 2013. № 36.C.5-12.
  3. Шапошников Д.А., Ревич Б.А. О некоторых подходах к вычислению рисков температурных волн для здоровья// Анализ риска здоровья. № 1. 2018.С.3-8.
  4. Simionescu М. The impact of Brexit on the UK inwards FDI // Economics, Management and Sustainability. 3(1). 2018.
  5. Sunday B. Akpan, Inimfon V. Patrick, Samuel U. James. Determinants of decision and participation of rural youth in agricultural production: a case study of youth in southern region of Nigeria // RJOAS. 7 (43). July 2015.
  6. Э. Колин Кэмерон, Правин К. Триведи. Микроэконометрика: методы и их применения, книга 2 (перевод с английского под научной редакцией Б. Демешева). М.: Издательский дом «Дело» РАНХиГС, 2015.- 633 с.
  7. Дежина И., Пономарев А. Перспективные производственные технологии: новые акценты в развитии промышленности// ФОРСАЙТ.2014. Т.8. №2. С.5-13.
  8. Публичный аналитический доклад по развитию новых производственных технологий. Сколковский Институт Науки и Технологий, 2014.
  9. Статистический сборник «Регионы России. Социально-экономические показатели» [электронный ресурс] // URL: http://www.gks.ru/bgd/regl/b17_14p/Main.htm

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *