Добрый день, блогерз.
У меня есть СМО, на входе — неоднородный поток событий, подчиняющийся экспоненциальному закону распределения.
У входящего потока заявок два «состояния». В первом из них — интенсивность i1, во втором i2 (i1>i2, они известны, для простоты).
С т.з. обработчика событий мы знаем только моменты времени поступления заявок.
Как, зная эти моменты, определить момент изменения состояния потока и вероятность того, что мы ошиблись?
Понятно, что если, перебирая заявки, мы найдем такое событие m, что для первых m событий оценка интенсивности будет равна точно i1, а для всех остальных — точно i2, то тогда оно искомое.
А если нет? Если i1>>i2, тогда все довольно «очевидно», но мне хочется найти точную математическую формулу…
В голове крутятся мысли о том, что можно рассмотреть n конкурирующих гипотез (о том, что на событии m=1,2,…,n произошла смена состояния), и в кач–ве критериев использовать оценки интенсивности для событий 1..m, m+1..n (два получается)… А что дальше делать? Выбирать «главный» критерий? Я не очень силен в статистике, помогите, пожалуйста) Или тут вообще по–другому надо подходить к решению?

GD Star Rating
loading...

7 Responses to Как определить момент изменения состояния потока и вероятность ошибки?

  1. Peels:

    У тебя довольно четко сформулированная модель, и неизвестно всего три параметра.
    Для подбора параметров модели в статистике есть несколько основных методов (главные ключевые слова maximum likelihood, maximum aposteriori и bayesian inference), которые применимы относительно прямолинейным образом.

    Если тебе статистика не лучший друг, возьми maximum likelihood. Для каждого момента времени t, в который могла произойти смена частоты оцениваешь параметры i1, i2, затем находишь likelihood как
    poisson(x1|i1*t1)*poisson(x2|i2*t2)
    и находишь значение t при котором это выражение принимает максимум.

    А что такое СМО я не понял. Лучше не злоупотреблять сокращениями.

  2. RARw:

    система массового обслуживания

  3. Gr5:

    а если мы берем «maximum likelihood», с какой вероятностью полученный результат окажется верным? ведь, я так понимаю, всегда есть ненулевая вероятность ошибки?

  4. Peels:

    Тут ты затрагиваешь вопрос, по которому статистики всего мира делятся на две воюющие религиозные группы, т.е. ответов на этот вопрос больше одного. Но классический подход упирается в нахождение confidence interval–ов.
    Confidence interval — это оценка параметров в виде «х принадлежит отрезку (А,Б)», которая гарантирует, что если данные действительно были сгенерированы из предполагаемой тобой модели, то отрезок будет содержать параметр с вероятностью 95% (ну или сколько ты выберешь в качестве уровня значимости).

    Нахождение правильных интервалов упирается в аккуратный анализ алгоритма вычисления точечной оценки (того самого maximum likelihood–a) и зависит от конкретной модели. Если копаться в формуле лень, можно пойти по простому пути:
    1) Находишь оценку параметров модели.
    2) Генеруешь данные много раз из этой модели. Для каждого сгенерированного набора повторяешь оценку. Смотришь на разброс полученных оценок. Выбираешь интервал, содержащий 95% этих значений. Это будет примерно 95% confidence interval для параметров.

  5. Gr5:

    можно уточнить, правильно ли я понял: выбираем момент времени t, где могла измениться интенсивность, затем вычисляем оценки интенсивностей на получившихся двух интервалах (так как поток простейший, то оценкой будет количество событий, деленное на время, за которое эти события произошли) i1 и i2. После этого мы оцениваем, с какой вероятностью, при данных интенсивностях, за время t произойдет в точности столько событий, сколько мы намеряли. И, т.к. у нас одновременно должно быть и точное кол–во событий на первом интервале, и точно кол–во событий на втором интервале, то мы все это дело перемножаем. И где вероятность получится лучше — те оценки i1,i2 и t лучше… Вроде бы так? Если да, то у меня затуп на моменте «оцениваем, с какой вероятностью, при данных интенсивностях, за время t произойдет в точности столько событий, сколько мы намеряли». Вроде бы есть формула — ((it)^k / k!)*e^(–it), с другой стороны — если оценивать i как k/t, то получается, что в формуле все зависит только от k… Поясните, пожалуйста!

  6. Peels:

    i — это количество событий, т.е. просто k.
    И да, при данном подходе нет возможности понять, где конкретно «между» событиями произошел перелом. Если это очень нужно, можно высосать из пальца дополнительное предположение касательно характера перелома и всунуть его в модель.
    Например, если сказать что «перелом является событием, который происходит в рамках первого процесса», то для каждого момента времени t можно посчитать likelihood что перелом произошел точно там.

    Но с другой стороны, скорее всего тебя такие тонкости не волнуют, поэтому забей и считай что перелом дискретный и происходит «где–то между событиями х и (х+1)».

  7. Rafol:

    Вообще, это так называемая, «задача о разладке». Ее впервые Колмогоров поставил в достаточно общей формулировке.

Добавить комментарий