Перейти к содержимому
zybik

Правильность и Обоснованность статистического анализа

Recommended Posts

Ни для кого не секрет, что чуть ли не все чудо-таблички на форуме используют для расчетов и анализа статистику предыдущих игр. А много ли кто задавался вопросом: "А какие данные лучше брать и за какой период?".

Мы можем брать просто последние игры каждой из команд, можем брать их последние домашние игры, последние гостевые игры, можем брать h2h... А на какое точное кол-во предыдущих матчей стоит ориентироваться?! Какую статистическую выборку для каждого конкретного случая стоит брать?! Две последние игры? Или три? А может 15? Или что-то среднее между 8 и 6? Есть ли какие-либо способы быстрой математической проверки этого, типа скользящих средних или корреляции, а может доверительные интервалы?

В общем-то приглашаю к обсуждению этой тематики, и поиску ответов на эти вопросы.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

В своей практике ориентируюсь на следующее.

Когда речь идет о необходимом количестве ставок для ретроанализа, то сперва нужно определиться - какая задача решается?

Если нужно оценить нечто среднее (например, тотал какой-нибудь), то значит решается задача оценки матожидания по среднему значению.

В этом случае необходимый минимум 20-25 значений для самого предварительного анализа. Это число не с неба, оно обосновано формулой Стэрджеса и подтверждено опытом докомпьютерной статистики, когда все решалось на бумаге и с помощью карандаша - то есть, нужно было максимально уменьшить объем вычислений.

Психологическим барьером является 100 значений. Но только психологическим!!

Для получения данных, которые позволяют корректно выполнять вычисления не только среднего, но и других характеристик, необходимо около 500 значений. Это число тоже не с потолка. Согласно Феллеру, случайная величина в среднем возвращается в 0 через 250 значений. То есть, это своеобразный полупериод так называемой "волны" лузов и винов. Период соответственно эти самые 500.

Это весьма поверхностно, первично....

Но кроме этого важно помнить, что матожидание не вычисляется, а оценивается. И эта оценка характеризуется не точным значением, а неким доверительным интервалом. То есть, полученному значению (заданному в виде интервала) нельзя доверять полностью, а только с некоторой вероятностью.

Это самые примитивные вытяжки из тервера в той его части, где речь идет об оценке матожидания и других числовых харктеристиках случайных величин.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

люблю ковыряться в цифири) ну для прогноза необходим симбиоз...и оценка формы (последние 5-6 матчей) и оценка всего сезона, важно и учет игр дома-выезд. нельзя делать прогноз только исходя из последних 5 матчей, или например только из домашних и гостевых игр

Изменено пользователем al88sm

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
16 минут назад, Дипломат сказал:

В своей практике ориентируюсь на следующее.

Когда речь идет о необходимом количестве ставок для ретроанализа, то сперва нужно определиться - какая задача решается?

Если нужно оценить нечто среднее (например, тотал какой-нибудь), то значит решается задача оценки матожидания по среднему значению.

В этом случае необходимый минимум 20-25 значений для самого предварительного анализа. Это число не с неба, оно обосновано формулой Стэрджеса и подтверждено опытом докомпьютерной статистики, когда все решалось на бумаге и с помощью карандаша - то есть, нужно было максимально уменьшить объем вычислений.

Психологическим барьером является 100 значений. Но только психологическим!!

Для получения данных, которые позволяют корректно выполнять вычисления не только среднего, но и других характеристик, необходимо около 500 значений. Это число тоже не с потолка. Согласно Феллеру, случайная величина в среднем возвращается в 0 через 250 значений. То есть, это своеобразный полупериод так называемой "волны" лузов и винов. Период соответственно эти самые 500.

Это весьма поверхностно, первично....

Но кроме этого важно помнить, что матожидание не вычисляется, а оценивается. И эта оценка характеризуется не точным значением, а неким доверительным интервалом. То есть, полученному значению (заданному в виде интервала) нельзя доверять полностью, а только с некоторой вероятностью.

Это самые примитивные вытяжки из тервера в той его части, где речь идет об оценке матожидания и других числовых харктеристиках случайных величин.

Дипломат меня немного не понял. Я спрашивал не про кол-во испытаний на ретро-выборке. А разумное кол-во предыдущих игр и их параметров для расчета следующей игры.

Например, силу атаки и обороны, Каким образом ее расчитывать? Брать только домашние игры Команды 1, или просто предыдущие игры? И сколько из этих игр брать? Возьмом 3 игры, тогда велика вероятность случайности, что команда просто поназабивала голов, возьмем 10 игр в расчет, тогда первые игры этой десятки будут слабо отражать настоящее положение команды. С другой стороны, 10 может помочь нам понять средние тенденции команды, а та же тройка предыдущих игр, как в высшей математики, маленький кусочек чего-либо, поможет вычислить наиболее точнее значение в данный момент.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
23 минуты назад, al88sm сказал:

нельзя делать прогноз только исходя из последних 5 матчей

Ну а почему нельзя то?) Какие-то мат выкладки есть?) Или как-то проверенные на практики, что например 500 игр предсказались лучше, когда мы находили их разницу в позициях турнирной таблице и форме 5 игр, чем когда мы просто брали форму по 5 играм?

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
3 минуты назад, zybik сказал:

Дипломат меня немного не понял. Я спрашивал не про кол-во испытаний на ретро-выборке. А разумное кол-во предыдущих игр и их параметров для расчета следующей игры.

Например, силу атаки и обороны, Каким образом ее расчитывать? Брать только домашние игры Команды 1, или просто предыдущие игры? И сколько из этих игр брать? Возьмом 3 игры, тогда велика вероятность случайности, что команда просто поназабивала голов, возьмем 10 игр в расчет, тогда первые игры этой десятки будут слабо отражать настоящее положение команды. С другой стороны, 10 может помочь нам понять средние тенденции команды, а та же тройка предыдущих игр, как в высшей математики, маленький кусочек чего-либо, поможет вычислить наиболее точнее значение в данный момент.

Ну не понял, так не понял... Попробуйте по 3 играм определить тенденцию... 🙂

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
2 минуты назад, Дипломат сказал:

Ну не понял, так не понял... Попробуйте по 3 играм определить тенденцию... 🙂

Теория синдиката и трех лиг вспомнилась, которая ходила в интернете) почему не по одной вообще?😃

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
1 минуту назад, zybik сказал:

Теория синдиката и трех лиг вспомнилась, которая ходила в интернете) почему не по одной вообще?😃

"Оптимальный" вариант - вообще без ничего... Просто - по звездам.... 🙂

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
2 минуты назад, Дипломат сказал:

"Оптимальный" вариант - вообще без ничего... Просто - по звездам.... 🙂

Это вы мне предлагаете в соседнюю тему заглянуть что ли?) 

А если серьезно, то как на счет того, чтоб все это дело протестировать хоть как-то мало-мальски?

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
3 минуты назад, zybik сказал:

Теория синдиката и трех лиг вспомнилась, которая ходила в интернете) почему не по одной вообще?😃

Но в чем-то вы правы... Есть такой подход: БУДЕТ ТАК, КАК ПОСЛЕДНИЙ РАЗ.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
Только что, zybik сказал:

Это вы мне предлагаете в соседнюю тему заглянуть что ли?) 

А если серьезно, то как на счет того, чтоб все это дело протестировать хоть как-то мало-мальски?

Чё тестировать? Конкретно.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
В 09.11.2018 в 15:17, Дипломат сказал:

Чё тестировать? Конкретно.

Например, вы по 5 играм последним считаете исход матча. А я по 10. А затем сравниваем, где лучше результаты с расчетами коррелируют

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
7 минут назад, zybik сказал:

Например, вы по 5 играм последним считаете исход матча. А я по 10. А затем сравниваем, где лучше результаты с расчетами коррелируют

Так одинаково ж будет. Если, конечно, речь идет о большом количестве матчей, для которых считается по 5 и по 10 играм.

Какой смысл тестировать то, что очевидно?

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
12 минуты назад, Дипломат сказал:

Так одинаково ж будет. Если, конечно, речь идет о большом количестве матчей, для которых считается по 5 и по 10 играм.

Какой смысл тестировать то, что очевидно?

От 700 до 1200, в зависимости от среднего коэф. А что очевидного?)

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
35 минут назад, zybik сказал:

От 700 до 1200, в зависимости от среднего коэф. А что очевидного?)

То, что сказал: будет одинаково плохая корреляция. Если говорить о коэффициенте корреляции в %% между средним за 5-10 матчей и значением в одномом матче - то будут первые проценты, ну, может первый-второй десяток %%. 

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
18 минут назад, Дипломат сказал:

То, что сказал: будет одинаково плохая корреляция. Если говорить о коэффициенте корреляции в %% между средним за 5-10 матчей и значением в одномом матче - то будут первые проценты, ну, может первый-второй десяток %%. 

Сами-то проверяли?) Тут еще надо определиться какие параметры брать в расчет, какие параметры высчитывать новые и как их высчитывать, а затем по результатам можно будет понять как их интерпретировать)

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
44 минуты назад, zybik сказал:

Сами-то проверяли?) Тут еще надо определиться какие параметры брать в расчет, какие параметры высчитывать новые и как их высчитывать, а затем по результатам можно будет понять как их интерпретировать)

Еще бы не проверять!! Все капперы  сперва проходят горнило массовых расчетов... :classic_biggrin:

Как по мне - то главное именно КАКИЕ ПАРАМЕТРЫ ВЫСЧИТЫВАТЬ.  Не уверен, что многие пытались повторить расчеты кэфов БК (хотя бы приблизительно получить то же самое). А как можно пытаться выиграть "войну" не зная соперника? 🙂

  • Like 1

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Создайте аккаунт или войдите для комментирования

Вы должны быть пользователем, чтобы оставить комментарий

Создать аккаунт

Зарегистрируйтесь для получения аккаунта. Это просто!

Зарегистрировать аккаунт

Войти

Уже зарегистрированы? Войдите здесь.

Войти сейчас

×
Вверх