Ни собаки, ни дороги – только пьяница.
Краткий обзор
Эта статья посвящена исследованию вопроса о том, существует ли какая-либо зависимость между временем и ценой биткойна. Мы проверим предложенную [здесь: 1, 2, 3] двойную логарифмическую модель на статистическую достоверность методом наименьших квадратов, а также на стационарность в отношении каждой переменной и на потенциальные ложные зависимости, используя для анализа коинтеграции метод Энгла – Грейнджера. Результаты всех проведённых тестов, кроме одного, опровергают гипотезу о том, что время может являться важным предиктором цены биткойна.
Введение
Модель log цена ~ log время (aka логарифмическая модель роста) была предложена несколькими авторами [1, 2, 3] для объяснения значительной части движений цены биткойна в прошлом и, как следствие, для прогнозирования будущих цен.
Научный метод с трудом поддаётся пониманию большинства людей. Он контринтуитивен. Это может привести к выводам, которые не будут отражать личных убеждений. Для того чтобы понять этот метод, необходимо понять и принять его фундаментальную идею: ошибаться нормально.
По убеждению великого философа науки Карла Поппера, проверка гипотезы на её ошибочность – это единственный надёжный способ добавить веса аргументу о том, что она верна. Если строгие многократные тесты не могут доказать, что гипотеза ошибочна, то с каждым таким тестом вероятность того, что она верна, возрастает. Эта концепция называется фальсифицируемостью (или потенциальной опровержимостью) гипотезы. В этой статье я попытаюсь сфальсифицировать модель логарифмического роста цены биткойна в том виде, как она была сформулирована в трёх указанных выше источниках: 1, 2, 3.
Примечания:
- Для всех анализов использовалось ПО Stata 14.
- Статья не содержит финансовых рекомендаций.
Определение проблемы
Чтобы сфальсифицировать гипотезу, сначала нужно точно установить, в чём она состоит:
Нулевая гипотеза (H0): Цена биткойна является функцией от количества дней существования Биткойна.
Альтернативная гипотеза (H1): Цена биткойна не является функцией от количества дней существования Биткойна.
Авторы указанных выше источников решили проверить H0 путём подбора регрессии обычных наименьших квадратов (OLS) на натуральный логарифм цены биткойна и натуральный логарифм количества дней существования Биткойна. Ни один из авторов не привёл ни сопутствующей диагностики, ни какой-либо определённой причины для логарифмического преобразования обеих переменных. Модель не учитывала возможности установления ложной зависимости вследствие нестационарности, возможности для взаимодействия или иных искажающих факторов.
Метод
В сегодняшней статье мы рассмотрим эту модель, проведём диагностику нормальной регрессии и определим, было ли преобразование логарифма необходимо или целесообразно (или и то и другое), а также исследуем возможные искажающие факторы (конфаундеры), взаимодействия и чувствительность модели к искажениям.
Ещё одна проблема, которую мы исследуем, – это проблема нестационарности. Стационарность (неизменность во времени) является необходимым условием большинства статистических моделей. Имеется в виду идея о том, что, если тренд относительно времени отсутствует в средних значениях (или дисперсии), то он отсутствует и в любой момент времени.
Помимо анализа стационарности, мы исследуем также возможность коинтеграции.
Условные обозначения
Традиционно расчётное значение статистического параметра обозначается «шапочкой» над символом. Здесь вместо него мы будем использовать [ ], т.е. расчётное значение β = [β]. Матрицу 2×2 мы будем представлять как [r1c1, r1c2 \ r2c1, r2c2] и т.д. Для обозначения индексированных элементов будем использовать символ @ – например, для 10-й позиции в векторе X обычно используется X с подстрочным индексом 10. Вместо этого, мы будем писать X@10.
Обычные наименьшие квадраты
Регрессия обычных наименьших квадратов – это метод нахождения линейной зависимости между двумя и более переменными.
Для начала давайте определим линейную модель как некоторую функцию X, которая равна Y с некоторой погрешностью.
Y = βX+ε
где Y – зависимая переменная, X – независимая переменная, ε – это величина погрешности, а β – множитель X. Задача OLS – вывести значение β так, чтобы минимизировать ε.
Для того чтобы вывести надёжное расчётное значение [β], необходимо соблюсти некоторые основные условия (известные как условия к Теореме Гаусса – Маркова):
Линейность
Начнём с рассмотрения не преобразованного в диаграмму рассеяния отношения цены и количества дней (данные Coinmetrics).
Рис. 1 – Отношение цены к количеству дней. Данные рассеяны в слишком большом диапазоне, чтобы определить линейность визуально.На рисунке 1 ясно видна достаточная причина для взятия логарифма от цены: разброс значений слишком велик. При взятии логарифма от цены (но не количества дней) и повторном построении диаграммы мы получаем знакомый паттерн (рисунок 2).
Рис. 2 – Отношение логарифма от цены к количеству дней. Возникает отчётливый логарифмический паттерн.Взяв логарифм от количества дней и построив диаграмму уже с ним, мы получаем очевидный линейный паттерн, идентифицированный авторами наших трёх источников (см. начало статьи) на рисунке 3.
Рис. 3 – возникает очевидная линейная зависимость.Это подтверждает правильность выбора двойного логарифма как единственного варианта, дающего в результате хорошо просматриваемую линейную зависимость.
Рис. 4 – преобразования квадратного корня дают ненамного лучший результат, чем нетрансформированные данныеТаким образом, предварительный анализ не опровергает H0.
Результаты двойной логарифмической регрессии приведены на рисунке 5 ниже, где [β] = 5,8.
Рисунок 5 – результаты для двойной логарифмической регрессии.Используя эту модель, мы теперь можем определить остатки [ε] и расчётные значения [Y], а также проверить соответствие другим условиям.
Гомоскедастичность
При соблюдении условия о постоянстве дисперсии в величине погрешности (т.е. о гомоскедастичности), погрешность для каждого значения прогнозируемой стоимости колеблется произвольным образом около нуля. Следовательно, график отношения остаточной стоимости к расчётной (рис. 6) представляет собой простой, но эффективный способ графически проверить выполнение этого условия. На рисунке 6 мы видим явно определённый паттерн, а не случайное рассеяние, что указывает на непостоянство дисперсии в величине погрешности (т.е. на гетероскедастичность).
Рис. 6(а) – график отношения остаточной стоимости к расчётной. Наличие паттерна здесь указывает на вероятную проблему.Следствием подобной гетероскедастичности является бóльшая дисперсия и, соответственно, меньшая точность расчётных значений коэффициентов [β]. Кроме того, она приводит к большей, чем следует, значимости p-значений, поскольку метод OLS не выявляет повышенную дисперсию. Поэтому для расчёта t- и F-величин мы используем заниженное значение дисперсии, приводящее к более высокой значимости. Это влияет также на 95% доверительный интервал для [β], который также является функцией дисперсии (через стандартную погрешность).
Результаты теста Бройша – Годфри на автокорреляцию тоже говорят о наличии этой проблемы.
Рис. 6(б) – Автокорреляция в остаткахНа этом этапе обычно стоит остановиться и уточнить модель. Однако, учитывая, что нам известен эффект от этих проблем, будет относительно безопасно продолжить с регрессионным пониманием того, что эти проблемы существуют. Способы справиться с ними (по крайней мере, в лёгкой их форме) существуют – например, взятие бутстреп-выборок или робастная оценка дисперсии.
Рис. 7 — Влияние гетероскедастичности в различных оценках.Как видно на рисунке 7, несмотря на небольшое увеличение дисперсии (см. расширенный доверительный интервал), по большому счёту, присутствующая гетероскедастичность в действительности не оказывает слишком большого вредного эффекта.
Нормальное распределение ошибок
Удовлетворение условия о том, что погрешность в норме распределяется со средним значением, равным нулю, не так важно, как удовлетворение условий о линейности или гомоскедастичности. При не соответствующих нормальному распределению, но не искажённых остатках, доверительные интервалы будут чрезмерно оптимистичными. Если же остатки искажены, то искажён может быть и конечный результат. Как видно из рисунков 8 и 9, остатки сильно искажены. Тест на нормальность по критерию Шапиро – Уилка даёт p-значение, равное 0. Они не соответствуют нормальной кривой в достаточной мере для того, чтобы не были затронуты доверительные интервалы.
Рис. 8 – Гистограмма погрешности с наложенной на неё (зелёной) кривой нормального распределения. Величина погрешности должна быть нормальной, однако таковой не является. Рис. 9 – график с нормальными квантилями величины погрешности. Чем ближе точки к линии, тем лучше нормальная подгонка.Леверидж
Леверидж – это концепция, согласно которой не все точки данных в регрессии вносят равный вклад в оценку коэффициентов. Некоторые точки с высоким левериджем могут существенно изменить коэффициент в зависимости от того, присутствуют они или нет. На рисунке 10 ясно видно, что есть слишком много внушающих сомнение точек (выше среднего остатка и выше среднего левериджа).
Рис. 10 – Леверидж и возведённые в квадрат остатки.Резюме по OLS
Базовая диагностика указывает на нарушение практически всех условий Гаусса – Маркова, за исключением линейности. Это довольно сильное доказательство несостоятельности H0.
Стационарность
Стационарным называют процесс с общим порядком 0 (напр., I(0)). Нестационарный процесс – это I(1) и более. Вычисление интеграла в этом контексте – это скорее «для бедных», сумма разностей со сдвигом по времени. I(1) означает, что при вычитании первого лага из каждого значения в серии получается I(0) процесс. Довольно хорошо известно, что регрессия по нестационарным временным рядам может привести к выявлению ложных связей.
На рисунках 12 и 13 ниже видно, что мы не можем опровергнуть нулевую гипотезу расширенного теста Дики-Фуллера (ADF). Нулевая гипотеза ADF-теста заключается в том, что данные являются нестационарными. Это значит, что мы не можем сказать, что данные стационарны.
Рисунки 11 и 12 – Расширенный тест Дики – Фуллера для единичного корня из логарифма от цены и логарифма от количества дней.Критерий Квятковского-Филлипса-Шмидта-Шина (KPSS) – это дополнительный тест на стационарность к тестам ADF. Нулевая гипотеза KPSS состоит в том, что данные являются стационарными. Как видно на рисунках 13 и 14, мы можем опровергнуть стационарность для большинства лагов в обеих переменных.
Рис. 13 и 14 – KPSS-тест против нулевой гипотезы о стационарностиKPSS-тесты доказывают, что эти две серии, вне всякого сомнения, являются нестационарными. И это, в общем, проблема. Если серия не является стационарной по меньшей мере относительно тренда, то метод OLS может идентифицировать ложные зависимости. Единственное, что мы могли сделать – это взять разницу между логарифмом и дневным значением каждой переменной и перестроить наши наименьшие квадраты. Однако, благодаря тому, что этот вопрос довольно широко распространён в эконометрических кругах, у нас есть гораздо более надёжный фреймворк, называемый коинтеграцией.
Коинтеграция
Коинтеграция – это способ разобраться с парой (или более) процессов I(1) и определить, есть ли между ними взаимосвязь и в чём она состоит. В качестве наглядной иллюстрации коинтеграции часто приводится упрощённый пример пьяницы и его собаки. Представьте себе пьяного человека, направляющегося домой, выгуливая на поводке собаку. Пьяницу совершенно непредсказуемым образом шатает по всей ширине дороги. Собака двигается тоже довольно сумбурно: обнюхивает деревья, лает, что-то роет лапами – такая беспокойная собачонка. Однако радиус движения собаки будет ограничен длиной поводка, удерживаемого пьяницей. То есть можно утверждать, что в любой точке маршрута пьяницы собака будет находиться в пределах длины поводка от него. (Конечно, мы не можем предсказать, в каком направлении от пьяницы она будет находиться в каждый момент времени, но она будет в пределах поводка.) Это очень упрощённая метафора коинтеграции – собака и её хозяин двигаются вместе.
Сравните это с корреляцией: скажем, бродячая собака следует за собачонкой пьяницы на протяжении 95% их пути, а затем убегает с лаем в другую сторону за проехавшим мимо автомобилем. Корреляция между маршрутами бродячей собаки и пьяницы была бы очень сильной (буквально R²: 95%), однако, как и многие случайные связи пьяницы, это отношение ровным счётом ничего бы не значило – его нельзя использовать для прогнозирования местонахождения пьяницы, поскольку для какого-то фрагмента пути прогноз на основе этих данных окажется верным, но для некоторых частей он будет совершенно неточным.
Для того чтобы найти местоположение пьяницы, сначала мы должны понять, какую спецификацию порядка запаздывания следует использовать в нашей модели.
Рис. 15 – спецификация порядка запаздывания. Минимальное значение AIC, используемое для определения.Здесь мы определяем наиболее подходящий для исследования порядок запаздывания через выбор минимального значения AIC порядка 6.
Далее нам нужно определить наличие коинтегрирующего отношения. С простым методом Энгла – Грейнджера ([англ.] источники см. в конце исходной статьи) сделать это относительно несложно. Если негативная статистика теста превышает критические значения, значит, существует коинтегрирующее отношение.
Рис. 16 – Статистика теста и близко не ниже какого-либо из критических значений.Результаты на рисунке 16 не дают оснований утверждать, что между логарифмом от цены и логарифмом от количества дней существует коинтегрирующее уравнение.
Ограничения
В этом исследовании мы не учитывали каких-либо искажающих факторов (конфаундеров). С учётом приведённых выше доказательств, чрезвычайно маловероятно, чтобы какие-либо конфаундеры могли оказать существенное влияние на наше заключение – мы можем опровергнуть H0. Можно утверждать, что между логарифмом от количества дней и логарифмом от цены биткойна не существует никакой связи. Если бы такая связь была, должно было бы существовать и коинтегрирующее отношение.
Заключение
Нарушение всех кроме одного условий Гаусса – Маркова для действительной линейной регрессии в совокупности с нестационарностью обеих переменных даёт достаточные доказательства для опровержения H0, следовательно, действительной линейной зависимости между логарифмом от цены и логарифмом от количества дней не существует, и такая зависимость не может использоваться для прогнозирования ценовых значений за пределами выборки.
Подписывайтесь на BitNovosti в Telegram!
Делитесь вашим мнением об этой статье в комментариях ниже.