Перейти к содержимому
Дипломат

Дневник Дипломата. Страничка о Байесе.

Recommended Posts

1 час назад, sergei-777 сказал:

Но он же оказывает существенное влияние (как в вашем примере). Наверняка есть ещё критерии, но степень их влияния на результат может быть гораздо ниже и, соответственно, наш критерий, как бы доминирует в этом влиянии... Впрочем, ваше право... это уже вопрос терминологии, который хоть и важен для взаимопонимания, но не является основополагающим в решении самой задачи.

Хотелось бы более подробно прочитать об однородности выборок (с примерами именно из сферы ставок) и об устойчивости частот (с примерами из той же сферы).

Доминантный - это как бы "преобладающий". Если вероятность какого-то свидетельства, например, 0.99 - то оно, конечно, доминантное. Но на практике беттинга такое не встретишь, скорее наоборот.

По однородности и устойчивости - это ж иное... На другой страничке. :classic_smile:

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Просто хотел уточнить (для себя), однородность выборки - это некая серия в узкой полосе частот/кэфов? Но в этой серии могут быть ставки на разные рынки (допустим на чёт/нечет + плюс на равновесные форы)? Если да, то насколько узким должен быть этот интервал?

По устойчивости частот... К примеру, есть у меня архив, котором 100 серий ставок по 100 событий в серии, вся совокупность = 10000 событий. Из них 5000 завершились нужным мне исходом. Гипотеза - вероятность около 0,5. Частоты же в этих сериях будут существенно колебаться от 35 до 65 (в пределах 3 сигм). Если в 65-70 сериях частоты будут в интервале от 45 до 55 и ещё штук 25 серий дадут частоты в интервалах 40-45 или 55-60, то можно сказать, что частоты устойчивы и гипотеза о вероятность 0,5 верна или нужно, чтобы, допустим, 90 (или 80, или 95) серий были с интевалом 45-55?

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
1 час назад, sergei-777 сказал:

Просто хотел уточнить (для себя), однородность выборки - это некая серия в узкой полосе частот/кэфов? Но в этой серии могут быть ставки на разные рынки (допустим на чёт/нечет + плюс на равновесные форы)? Если да, то насколько узким должен быть этот интервал?

По устойчивости частот... К примеру, есть у меня архив, котором 100 серий ставок по 100 событий в серии, вся совокупность = 10000 событий. Из них 5000 завершились нужным мне исходом. Гипотеза - вероятность около 0,5. Частоты же в этих сериях будут существенно колебаться от 35 до 65 (в пределах 3 сигм). Если в 65-70 сериях частоты будут в интервале от 45 до 55 и ещё штук 25 серий дадут частоты в интервалах 40-45 или 55-60, то можно сказать, что частоты устойчивы и гипотеза о вероятность 0,5 верна или нужно, чтобы, допустим, 90 (или 80, или 95) серий были с интевалом 45-55?

Показателем однородности (гравным) является унимодальность распределения - то есть, это означает, что выборка состоит из тех исходов, которые имеют одинаковую вероятность.

Остальное (одинаковая - это какая  - это в некотором интервале) - решается каждый раз отдельно.

"Частоты учтойчивы" - это очень качественное понятние. Но если есть большая выборка (как у вас), то имеет смысл ориентироваться на дисперсию нормального распределения (правило 3-х сигм).

Так что вы всё верно понимаете. :classic_smile:

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
5 часов назад, Дипломат сказал:

Сложнее с вероятностями свидетельств. Тут нужно определиться - что вообще за свидетельства будем использовать? Возможно множество вариантов, но среди них два принципиально отличающихся.

1. Можно, выбрав из некоторых соображений (может логических, а может подсмотрев у кого-то) свидетельство А, пытаться определить его вероятность, используя второе определение вероятности - то есть через частоту.

2. Но можно обратиться к мнению экспертов. 

Хорошо бы, от экспертов требовать сами значения вероятностей! Но это хорошо, если они эти вероятности вычисляют. Увы, часто специалисты в той или иной области просто отдают предпочтение какой-то гипотезе, исходя из своего опыта (или интуиции), но делают это весьма успешно. Вот это "весьма успешно" и можно преобразовать в вероятности их свидетельств. Для этого необходимо отследить серию прогнозов экспертов и просто вычислить частоты, с которыми их прогнозы сбываются.

Именно так поступаем в теме с конкурсом.

Здесь тоже есть подводные камни. Их не мало. Но наиболее крупный - влияние мнений экспертов друг на друга, или использование ими одних и тех же источников для получения вывода. С этим можно бороться в два этапа. 1) скрыть мнение каждого эксперта до того, пока не будут получены мнения-прогнозы каждого и 2) Если прогнозы каких-то экспертов в точности дублируются, то учитывать их только один раз.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Важнейший момент связан с определением вероятности свидетельства эксперта.

На первый взгляд все просто: если эксперт дал из, например, 10 прогнозов 5 верных результатов на кэфе около 2, то соответствующая вероятность (оцениваемая по частоте 5/10) равна 0.5. А если 6 из 10 - то соответственно 0.6.

Но тут заявляет о себе  "длинная дистанция": 10 прогнозов это мало.... 

Так сколько же нужно взять прогнозов, чтобы верно определить % угадываемости экспертом?

Тут без тервера ну никак! Ведь речь на самом деле идет об оценке математического ожидания количества верных прогнозов.

Не вдаваясь в дебри теории, зафиксируем следующее. Если прогнозы эксперта все время давались на исходы с одинаковыми кэфами, то имеем вероятность единичного исхода р.

При n прогнозах матожидание в схеме Бернулли (а именно с ней мы имеем в данном случае дело) равно МО=n*p. 

Но здесь мы решили, что вероятность угадывания экспертом и вероятность единичного исхода совпадают. А это как-то не вяжется с нашими начальными установками по применению Байеса - мы ведь предполагаем, что информация от эксперта должна менять априорную информацию. Поэтому, будем далее говорить о двух вероятностях единичного исхода: р - вероятность при случайном выборе исходов, рэ - вероятность при выборе по указке эксперта. И нам как раз нужно знать рэ.

Поэтому и будем говорить о матожидании результата эксперта: МОэ=n*pэ. И выходит, что тут у нас 2 неизвестных: искомое МОэ и то самое рэ. И связаны они через количество прогнозов n. Если сможем получить что-то одно (МОэ или рэ) - то сможем вычислить другое. Собственно нам нужно рэ. А найти на практике можно МОэ, точнее - не найти, а оценить!! (это принципиально важно). Оценить - значит получить приближенное значение. Но!! В тервере знают не только как получить приближенное значение, но и как получить погрешность (точность) этого приближенного значения. Мерой такой погрешности является дисперсия и корень из нее (среднее квадратическое отклонение - СКО, которое часто еще называют "сигма"). И то и другое можно получить по результатам прогнозов эксперта. В идеале для этого надо иметь несколько серий прогнозов (например, 20 серий по 20 прогнозов). Но у нас нет возможности "выдавливать" из уважаемых экспертов такие данные. Поэтому, подойдем с другой стороны, возьмем упрощенную схему...

 

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Упрощенная схема применяется тогда, когда имеется одна серия испытаний. И пусть у нас есть эксперт, который дал 10 (n) прогнозов, из которых 6 (m) оказались верными.

Тогда лучшей оценкой МОэ и является эта m=6. Соответственно, лучшей оценкой рэ будет отношение m/n=6/10=0,6.

Лучшей оценкой дисперсии будет n*рэ*(1-рэ)=10*0.6*0.4=2.4, лучшей оценкой СКО будет КОРЕНЬ(n*рэ*(1-рэ))=1.55 (примерно).

А теперь главное. Эти оценки позволяют нам сделать важнейший вывод. 

1) с вероятностью около 0.997 МОэ находится в пределах от 1 до 10 (точнее - от 1.35 до 10.65)  (то есть, с отклонением 3*СКО от m)

2) с вероятностью около 0.95 МОэ находится в пределах от 2 до 9  (точнее - от 2.9 до 9.1) (то есть, с отклонением 2*СКО от m)

3) с вероятностью 0.68 МОэ находится в пределах от 5 до 7 включительно (точнее - от 4.45 до 7.55)  (то есть, с отклонением 1*СКО от m)

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
3 минуты назад, Дипломат сказал:

Упрощенная схема применяется тогда, когда имеется одна серия испытаний. И пусть у нас есть эксперт, который дал 10 (n) прогнозов, из которых 6 (m) оказались верными.

Тогда лучшей оценкой МОэ и является эта m=6. Соответственно, лучшей оценкой рэ будет отношение m/n=6/10=0,6.

Лучшей оценкой дисперсии будет n*рэ*(1-рэ)=10*0.6*0.4=2.4, лучшей оценкой СКО будет КОРЕНЬ(n*рэ*(1-рэ))=1.55 (примерно).

А теперь главное. Эти оценки позволяют нам сделать важнейший вывод. 

1) с вероятностью около 0.997 МОэ находится в пределах от 1 до 10 (точнее - от 1.35 до 10.65)  (то есть, с отклонением 3*СКО от m)

2) с вероятностью около 0.95 МОэ находится в пределах от 2 до 9  (точнее - от 2.9 до 9.1) (то есть, с отклонением 2*СКО от m)

3) с вероятностью 0.68 МОэ находится в пределах от 5 до 7 включительно (точнее - от 4.45 до 7.55)  (то есть, с отклонением 1*СКО от m)

На практике это означает следующее.

Если этот эксперт даст 1000 прогнозных серий по 10 прогнозов в каждой, то:

- в 997 сериях он угадает от 1 до 10 раз

- в 950 сериях его прогноз будет верен от 2 до 9 раз

- в 680 сериях его прогноз будет удачен от 5 до 7 раз

Необычная для бытовухи ситуация!!! МОэ может быть ЛЮБЫМ, но это каждое значение МОэ (а вернее - интервал, в котором может быть МОэ ) характеризуется вероятностью.

Вот этот момент - важнейший для понимания сути вероятности вообще.

 

Вывод: в своих оценках всегда нужно помнить, что они вероятностны. (Вероятность характеризуется вероятностью! :classic_smile: )

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Для применения формулы Байеса нужны, естественно, как можно более точные вероятности свидетельств экспертов. И это понятно.

Но!! У байеса есть важнейшее свойство, которое можно использовать: хороший прогноз даст БОЛЬШОЕ КОЛИЧЕСТВО свидетельств даже с малым отклонением от "бесполезных" 0.5! И это можно воплотить в жизнь!

Для этого, однако, надо задаться вероятностью верности (надежностью - по другому) вероятности свидетельства (речь фактически о 1СКО, 2СКО, 3СКО). Выбор такой надежности - вопрос "индивидуальный" (если вы прыгаете с парашютом, то его надежности даже 0.997 как-то маловато.... А если речь о надежности прогноза, то и 0.51 бывает достаточно, если рискуете малой суммой).

Примем для определенности, что нас вполне устроят всяческие отклонения в пределах 1СКО, то есть будем оперировать с вероятностями верности 0.68.

Тогда, всё что касалось нашего эксперта, который угадал 6 из 10, можно рассмотреть под другим углом.

Раз нам достаточно, что бы с вероятностью около 0.68 МОэ было чуть более половины, то это мы уже можем записать в виде формулы:

n*pэ-КОРЕНЬ(n*рэ*(1-рэ))>0.5

Из этого уравнения осталось найти те значения n, начиная с которых можно с вероятностью 0.68 (на самом деле - большей, но об этом в другой раз) утверждать, что эксперт дает верные прогнозы чаще, чем не верный.

Или, найти то значение частоты m в заданной серии  n , при которой опять-таки можно утверждать то же самое...

 

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
10 минут назад, Дипломат сказал:

Для применения формулы Байеса нужны, естественно, как можно более точные вероятности свидетельств экспертов. И это понятно.

Но!! У байеса есть важнейшее свойство, которое можно использовать: хороший прогноз даст БОЛЬШОЕ КОЛИЧЕСТВО свидетельств даже с малым отклонением от "бесполезных" 0.5! И это можно воплотить в жизнь!

Для этого, однако, надо задаться вероятностью верности (надежностью - по другому) вероятности свидетельства (речь фактически о 1СКО, 2СКО, 3СКО). Выбор такой надежности - вопрос "индивидуальный" (если вы прыгаете с парашютом, то его надежности даже 0.997 как-то маловато.... А если речь о надежности прогноза, то и 0.51 бывает достаточно, если рискуете малой суммой).

Примем для определенности, что нас вполне устроят всяческие отклонения в пределах 1СКО, то есть будем оперировать с вероятностями верности 0.68.

Тогда, всё что касалось нашего эксперта, который угадал 6 из 10, можно рассмотреть под другим углом.

Раз нам достаточно, что бы с вероятностью около 0.68 МОэ было чуть более половины, то это мы уже можем записать в виде формулы:

n*pэ-КОРЕНЬ(n*рэ*(1-рэ))>0.5

Из этого уравнения осталось найти те значения n, начиная с которых можно с вероятностью 0.68 (на самом деле - большей, но об этом в другой раз) утверждать, что эксперт дает верные прогнозы чаще, чем не верный.

Или, найти то значение частоты m в заданной серии  n , при которой опять-таки можно утверждать то же самое...

 

Простая прикидка ("в уме") по приведенной формуле дает нам следующее

- если эксперт показывает частоту, по которой рэ=0.6, то необходимо, чтобы у него было что-то около 60 прогнозов, тогда полученные 36 угадываний дают право говорить, что вероятность его свидетельства  более 0.5

- чтобы по результатам, например, 100 прогнозов утверждать, что вероятность свидетельства эксперта не менее 0.51, нужно, что бы из этих 100 прогнозов у него минимум 56 зашло.

Но, хороши и те эксперты, у которых соответственно менее 27 и 45 угадываний (об этом говорилось ранее).

П.С. Все числа в этом посте - приблизительные, для иллюстрации.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
В 07.12.2018 в 18:17, Дипломат сказал:

НАПРИМЕР. Для некой команды племени мумба-юмба весьма важно - удовлетворил ли вождь свою жену накануне или нет.  Берем ретро данные и находим соответствующие частоты П1 этой команды. Пусть команда выиграла в 50 матчах из 60, когда вождь справился, и выиграла 20 из 50, когда ничего не получилось. Имеем два свидетельства: А1 - если вождь справился, то Р(А1)=50/60, а если нет - А2, то Р(А2)=20/50. Накануне матча читаем новости племени и выбираем в качестве вероятности свидетельсьва А соответствующую вероятность.

А что делать со сложными примерами? Например, в некоторые месяцы года, вождь на подъеме своих сил, справлялся со своим заданием лучше, ну и команда играла лучше. Так сказать вероятность в вероятности.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
2 минуты назад, zybik сказал:

А что делать со сложными примерами? Например, в некоторые месяцы года, вождь на подъеме своих сил, справлялся со своим заданием лучше, ну и команда играла лучше. Так сказать вероятность в вероятности.

Многие скажут - менять вождя...

Но я-то знаю: менять жену вождя! :classic_biggrin:

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
5 минут назад, Дипломат сказал:

Многие скажут - менять вождя...

Но я-то знаю: менять жену вождя! :classic_biggrin:

А если серьезно, то нужно внутри уже этого множества считать частоты отдельно для события А и события Б?

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
1 минуту назад, zybik сказал:

А если серьезно, то нужно внутри уже этого множества считать частоты отдельно для события А и события Б?

Если и то лучше, и то лучше - то зачем что-то менять? Между ними же корреляция, связь!

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
20 минут назад, Дипломат сказал:

Если и то лучше, и то лучше - то зачем что-то менять? Между ними же корреляция, связь!

Мы внутри одного множества выделили другое множество, чуть более влияющее, почему бы и его не учитывать для большей точности?

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
4 минуты назад, zybik сказал:

Мы внутри одного множества выделили другое множество, чуть более влияющее, почему бы и его не учитывать для большей точности?

Конкретно по примеру (с вождем) в чем состоит подмножество?

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Во множестве "удовлетворение", мы выделили множество "ты просто космос Стас", по определенным дням. 

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
15 минут назад, zybik сказал:

Во множестве "удовлетворение", мы выделили множество "ты просто космос Стас", по определенным дням. 

Ну это уже для прогнозирования счета!

Для байеса важна вероятность свидетельства. А она определяется по частоте. Поэтому, конечно, можно выделить "космос". Но это уже другое свидетельство.

На самом деле в этом Байесе просто немерянное море для творчества. :classic_smile: Важно аккуратно определять частоты.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
4 минуты назад, Дипломат сказал:

Ну это уже для прогнозирования счета!

Для байеса важна вероятность свидетельства. А она определяется по частоте. Поэтому, конечно, можно выделить "космос". Но это уже другое свидетельство.

На самом деле в этом Байесе просто немерянное море для творчества. :classic_smile: Важно аккуратно определять частоты.

То есть можно Байеса через Байеса посчитать😃 точный счет не проставить нормально, а то тебя быстро заподозрят в договорнике и скормят последнему племени. Зато точный счет, придаст уверенности в исходе и тотал можно грузить)

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
Только что, zybik сказал:

То есть можно Байеса через Байеса посчитать😃 точный счет не проставить нормально, а то тебя быстро заподозрят в договорнике и скормят последнему племени. Зато точный счет, придаст уверенности в исходе и тотал можно грузить)

Ну вот применительно к конкурсу: не имеет значения как участник делает прогноз, может тот же Байес использует..... То есть, не важно как получена вероятность свидетельства, важно, что бы она была как можно точнее.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
23 часа назад, Дипломат сказал:

Простая прикидка ("в уме") по приведенной формуле дает нам следующее

- если эксперт показывает частоту, по которой рэ=0.6, то необходимо, чтобы у него было что-то около 60 прогнозов, тогда полученные 36 угадываний дают право говорить, что вероятность его свидетельства  более 0.5

- чтобы по результатам, например, 100 прогнозов утверждать, что вероятность свидетельства эксперта не менее 0.51, нужно, что бы из этих 100 прогнозов у него минимум 56 зашло.

Но, хороши и те эксперты, у которых соответственно менее 27 и 45 угадываний (об этом говорилось ранее).

П.С. Все числа в этом посте - приблизительные, для иллюстрации.

то есть понятно, чем больше сделано прогнозов, тем надежнее результат (вероятность свидетельства).

Для учета этого можно умножать отличие результата эксперта от 0.5 на поправочный коэффициент, который будет тем ближе к 1, чем больше сделано прогнозов.

Вполне логично такой коэффициент должен быть связан с СКО, как это показано на рис 1.

Но можно и упростить немного, как это показано на рис 2 и как я это делаю в конкурс (то есть, до того, пока у эксперта менне 15 прогнозов, доверие к его результатам не полное. Например, если сделано 12 прогнозов на кэфе около 0.5 и угадано 9 (вероятность свидетельства 9/12=0.75), то отличие от среднего составляет 9-6=3. По графику рис 2 для 12 на горизонтальной оси определяем поправочный коэффициент 0.8. Получаем вероятность свидетельства эксперта 0.5+0.25*0.8=0.7.

image.thumb.png.99e1a63c01b8ffa31210585a4ec2961c.png

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Остался один момент (из главных).

До сих пор говорилось, что 0,5 - это та вероятность свидетельства, которая соответствует средней угадываемости (соответствующей кэфу около 2). 

Однако, если кэф другой, то это нужно учесть. Так в конкурсе идет прогноз на средние кэфы около 3, что соответствует наиболее вероятной угадываемости 1/3=0.333.

Но, для этих 1/3 вероятность свидетельства должна быть 0,5. Соответствующий пересчет можно легко сделать.

На рисунке 3 показан график, по которому переводим частоту угадывания (на горизонтальной оси) в вероятность свидетельства

image.thumb.png.bce847ecbcb91cd06cde6cbcd6beb1e7.png

Теперь все готово для практического применения Байеса.

1) приходит эксперт и говорит: я угадал 6 основных исходов в 10 прогнозах

2) частота равна 0.6

3) пересчитываем частоту в вероятность свидетельства (см. рис 3)

4) корректируем вероятность свидетельства (см рис 2 или 1 )

5) задавшись априорной вероятностью, по формуле Байеса вычисляем апостериорную вероятность

6) принимаем апостериорную вероятность в качестве новой априорной и ждем нового эксперта.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Создайте аккаунт или войдите для комментирования

Вы должны быть пользователем, чтобы оставить комментарий

Создать аккаунт

Зарегистрируйтесь для получения аккаунта. Это просто!

Зарегистрировать аккаунт

Войти

Уже зарегистрированы? Войдите здесь.

Войти сейчас

×
Вверх