По закону Бенфорда

0. Предварительные замечания

Пару дней назад я тут написал, что повторного проведения голосования в США требует закон Бенфорда. Потом получил разъяснение, почитал статьи, попытался разобраться и решил сообщение удалить как недостаточно обоснованное.

Вчера вечером я написал новое сообщение на ту же тему, с более обстоятельным анализом на материале графства Милуоки (штат Висконсин) и штата Гавайи. В качестве источника использовались данные, опубликованные на сайте Milwaukee City Wire (обновленные), поскольку сайт с официальными данными был недоступен в течение нескольких дней.1 Однако достаточно быстро после публикации я нашел сведения, согласно которым использованный мной источник не заслуживает доверия.2 Сразу же дополнил свой пост предупреждением об этом и просьбой воспринимать то, о чем я пишу, с особой осторожностью. При дальнейшей проверке обнаружилось, что использованные мной данные были неполными, расходились с опубликованными итогами по явке, голосам, отданным за кандидатов, и даже по числу избирательных участков, которых было приведено почти на треть меньше. После этого я немедленно убрал свой текст.

Сегодня мне удалось через американский прокси-сервер получить доступ к официальным опубликованным данным. Выяснилось, что сведения, приведенные в газете, не были искаженными, они были только неполными. В последовательности номеров участков не было пропусков, числа по явке и голосам совпадали с официальными. На сайте газеты не была приведена только последняя треть списка. Анализ полного набора данных оставил в силе почти все мои выводы, кроме подозрительного биномиального распределения явки, которое было устранено добавленными участками. (Биномиальное распределение может быть следствием демографических и географических различий в графстве, особенностей голосования по почте и вовсе не обязательно само о себе свидетельствовало о манипуляции на выборах). Поэтому я счел возможным опубликовать снова свой вчерашний текст, внеся необходимые изменения.

Также хотел бы попросить читателей, прежде, чем они перейдут к основному тексту, не воспринимать нижесказанное как надежное разоблачение мошенничества или подтверждение теории заговора. Приведенные статистические особенности могут быть следствием естественных причин или ошибок, а не злонамеренного вмешательства. Скорее всего, я просто не знаю или не могу знать всего, что может послужить истинным объяснением. Тем более, что это мой первый любительский опыт анализа электоральной статистики. Против же любой теории заговора главным аргументом служит то, что заговор еще себя не раскрыл. Для манипуляций в нескольких колеблющихся штатах, которые могли бы превратиться в преимущество одного из кандидатов порядка нескольких тысяч или десятков тысяч голосов, необходима координация усилий множества людей. Вероятность существования заговора уменьшается с течением времени, причем скорость убывания вероятности экспоненциально зависит от числа вовлеченных в него людей. Заговор с участием сотен и тысяч злоумышленников должен бы был быть стать явным в течение нескольких месяцев, а этого пока не случилось.

* * *

Если упростить, закон Бенфорда3 заключается в том, что для первых цифр любых случайных числовых данных будет наблюдаться логарифмическое распределение по убыванию от 1 до 9 (для десятичной системы), то есть больше всего чисел будет начинаться с 1 (30,1 %), потом с 2 (17,6 %), потом с 3 (12,5 %) и далее с 9 (4,6 %). Это не полностью надежный способ выявления фальсификации данных, но он себя хорошо зарекомендовал в криминалистической экспертизе финансовой отчетности. В принципе, он должен срабатывать и в электоральной статистике, но не всегда. У этого закона есть два главных ограничения. Во-первых, он не работает, если величины не перекрывают несколько порядков, а находятся в узком диапазоне. Во-вторых, он не работает для нормального распределения. То есть нарушение закона Бенфорда не означает, что имеет место обязательно фальсификация, могут быть и другие причины. Ограничения этого метода стоит принимать во внимание.4

1. Милуоки, Висконсин

В первые дни после голосования внимание некоторых наблюдателей было приковано к графству Милуоки, штат Висконсин. Напомню, что это один из тех штатов, в которых Трамп лидировал в середине подсчета, но после поступления почтовых бюллетеней потерял свое преимущество. По итогам голосования в этом штате (на данный момент, посчитано 99 % голосов) Байден победил с перевесом в 20540 голосов или 0,7 %.

На Милуоки обратили внимание потому, что на некоторых сайтах стали публиковаться результаты подсчетов по избирательным участкам в этом графстве. Явка на некоторых участках превышала 200 % зарегистрированных (не проживающих) избирателей. Комментаторы это объяснили высоким процентом регистраций в день голосования. Затем в таблицу с данными были внесены коррективы, явка больше 100 % исчезла за счет повышения явки на соседних по номерам избирательных участках. Эта странность была объяснена тем, что данные не были официальными, а первоначальный источник, который их опубликовал, был ангажирован. Но даже если бы источник сообщал достоверные сведения, в качестве контраргументов приводились вполне правдоподобные объяснения, помимо манипуляций с голосами. Ящики с разных участков могли перемешаться, могли быть ошибки при внесении данных и т. п. Мне было интересно проверить, выглядят ли новые, исправленные и официальные данные5 правдоподобными.

Размер выборки — 478 участков, зарегистрированных избирателей — 551 311, явка — 460 300, голосов, отданных за Байдена — 317 251 (68,9 % от явки), за Трампа — 134 355 (29,2 % от явки). Для контроля также анализировались данные по кандидату Йоргенсен, которая набрала 4 339 голосов (0,9 % явки).

Первое, что я проверил — это соблюдение закона Бенфорда для четырех ключевых параметров: количества зарегистрированных избирателей и голосов за каждого из выбранных для анализа кандидатов. Результат приведен на рис. 1. На нем видно, что на данных о количестве голосов, поданных за Байдена на каждом участке (синяя линяя), и на данных о количестве зарегистрированных избирателей (серая сплошная линия) закон (серая пунктирная линия) не действует. Но это (как будет показано ниже) следствие распределения, похожего на нормальное (гауссово). Действительно, удобно нарезать участки так, чтобы на их территории проживало примерно одинаковое число избирателей. Среднее число зарегистрированных избирателей на участках — 1153, медиана — 1021, σ — 648, поэтому можно предположить, что на большинстве участков зарегистрировалось 600-1400 избирателей. Для данных о количестве голосов, поданных за Трампа и Йоргенсен на каждом участке, закон Бенфорда вроде бы соблюдается, но это может быть случайностью, потому что среднее у Трампа — 281, медиана — 192, σ — 301, у Йоргенсен 9,1, 7 и 8,7 соответственно, то есть вполне реально, чтобы значительное число результатов Трампа находилось в районе первой сотни (скорее — 20—40), а у Йоргенсен — первого десятка. Правда, не совсем понятно, почему тогда у Трампа не наблюдается повышенный «хвост» в районе восьмерки и девятки, но в этом надо разбираться отдельно. В любом случае, вполне правдоподобным объяснением может быть узкий диапазон величин.

Затем я попробовал нарисовать простую диаграмму рассеяния голосов, поданных за Байдена (рис. 2), за Трампа (рис. 3) и за Йоргенсен (рис. 4), в зависимости от количества зарегистрированных избирателей на каждом участке. Диаграмма Байдена выглядит в принципе правдоподобно, хотя немного подозрительно, что наибольшая плотность точек находится не в начале системы координат (как мы это увидим на других примерах), а смещена право вверх. Кроме этого, обращает на себя внимание, что «хвост кометы» не расходится в диагональном направлении вправо вверх, а корреляция между размером участка и голосами, поданными за Байдена достаточно сильная, с малой дисперсией. Диаграммы Трампа и Йоргенсен выглядят странно: у них нет «головы кометы» в начале координат, наоборот, где-то от 0 до 800—1000 по оси абсцисс их как бы придавили вниз, потом «хвосты» разлетаются неестественно (по сравнению с другими подобными диаграммами). Такой деформированный вид диаграмм у Трампа и Йоргенсен можно, наверное, объяснить тем, что за эти два кандидата получили слишком низкий процент голосов.

На рис. 5 показана частота встречающихся в наборе нормированных данных о размерах участков и количестве поданных голосов за каждого из кандидатов. Видно, что график Байдена (синий цвет) почти полностью копирует похожее на нормальное распределение размера участков (серый цвет). Длинный «хвост» — это характерное свойство подобных графиков. Оба графика достаточно гладкие. У Трампа и Йоргенсен наоборот, большинство их результатов относятся к первым децилям, графики напоминают гиперболу. Выглядит так, будто бы вершину их распределений подвинули влево и обрезали. У Йоргенсен имеется небольшой «пик», который может объясняться случайностью.

На последнем рис. 6 из графства Милуоки показано распределение явки на участках в процентах к числу зарегистрированных избирателей. Видно, что подъем менее резкий, чем спад. Явка сильно смещена к максимальным значением (хотя и не превышает 100 %, за исключением одного участка с четырьмя зарегистрированными избирателями, где составила 125 %). Это может быть результатом упоминавшейся массивной регистрации избирателей в день выборов.

2. Поиск образца для сравнения

Мне было необходимо некоторое время подумать над тем, какие эталонные выборы сравнить с результатами, полученными по Милуоки. Теми же методами я обработал данные по второму туру выборов президента Чешской республики в 2018. Это чуть меньше 15 тыс. участков. Диаграммы рассеяния выглядят идеально, закон Бенфорда соблюдается. Однако не наблюдается похожего на нормальное распределение размеров участков и результатов голосования по каждому кандидату, все три графика синхронно резко достигают пика в начале оси абсцисс, затем следует резкий спад, пологий спад, «горб», и длинный «хвост». Графики кандидатов очень похожи друг на друга, но несколько отличаются от графика размера участков. Тем не менее, эти данные не буду приводить для сравнения, поскольку выборка более чем в сорок раз больше, региональные различия на ней сглажены, а разрыв между кандидатами был незначительным.

Другой вариант, который я рассматривал — результаты выборов президента США по графствам в 2016 г. Это чуть больше 3000 графств. Для этих данных тоже характерно кометообразные диаграммы рассеяния, также соблюдается закон Бенфорда, но из-за того, что сами территориальные единицы крупнее, общее число избирателей больше почти на два порядка, а разрыв между кандидатами незначительный, этот вариант был отброшен.

3. Гавайи

Поиски данных по этим выборам на уровне избирательных участков завершились на штате Гавайи.6 В этом штате преимущество демократов на всех выборах значительное в течение долгого времени. Не было оснований полагать, что на Гавайях Байден не выиграет у Трампа с большим отрывом, поэтому крайне маловероятно, чтобы кого-то был умысел манипулировать выборами. Штат достаточно маленький, как крупное графство, и при этом демографические и географические отличия в нем тоже могут проявиться.

Я не анализировал возможную разницу между результатами голосования двумя разными способами, потому что на Гавайях доля проголосовавших по почте составила 4,9 % всех голосов, а по Милуоки аналогичных официальных данных я не обнаружил. При этом стоит отметить, что доля голосов Трампа составила 71,1 % бюллетеней, присланных по почте, за Байдена — 27,3 %, за Йоргенсен — 0,8 %. Это расходится с объяснением победы Байдена голосованием демократов по почте. По крайней мере на Гавайях, это соотношение обратное.

Размер выборки — 250 участков, зарегистрированных избирателей — 832 466, явка — 579 165 (69,6 % от зарегистрированных), действительных бюллетеней — 573 854 (99,1 % от явки), голосов за Байдена подано 365 802 (63,2 % от явки), за Трампа — 196 602 (33,9 % от явки), за Йоргенсен — 5 525 (1,0 % от явки). Помимо этого в штате в выборах участвовало еще три кандидата, но их общий результат — 5 925 голоса (1,0 % от явки), поэтому он не анализировался.

На рис. 7 продемонстрировано, что закон Бенфорда в целом соблюдается для четырех наборов данных: количества зарегистрированных избирателей (темно-серый), поданных голосов на Байдена (синий), Трампа (красный) и Йоргенсен (желтый) на каждом из участков. Здесь стоит также отметить, что кривые распределения первых цифр у двух ведущих кандидатов похожи между собой, небольшое смещение у Трампа влево вполне соответствует его результату, который при сохранении порядка в абсолютных числах ниже в три раза. Кривая Йоргенсен хорошо копирует кривую распределения первых цифр у размера участков. Эти графики кандидатов, в отличие от аналогичных по графству Милуоки, выглядят вполне правдоподобно, отклонения от идеальной кривой могут быть легко объяснены, хотя ни размеры участков, ни результаты кандидатов на Гавайях не демонстрируют распределение, похожее на нормальное.

На рис. 8, 9 и 10 приведены диаграммы рассеяния для Байдена, Трампа и Йоргенсен соответственно. Показана зависимость полученных голосов от количества зарегистрированных избирателей на каждом участке. Все три диаграммы демонстрируют одинаковые свойства: близко к началу координат находится «голова кометы», от которой достаточно симметрично начинается «хвост» в направлении вправо вверх. Стоит отметить, что несмотря на то, что результаты у третьего кандидата отличаются более чем на порядок, его диаграмма выглядит похоже, на диаграммы первого и второго кандидатов.

На последнем рис. 11 показано распределение явки на участках в процентах к числу зарегистрированных избирателей. Распределение не совсем симметрично: спад за пиком более резкий, чем подъем перед ним. Этот график более гладкий, но в целом похож на аналогичный для графства Милуоки с тем отличием, от отвечает более низкой общей явке.

4. Выводы

Вполне возможно, что статистические аномалии в графстве Милуоки имеют простое объяснение, не связанное с манипуляцией выборами. На примере кандидата Йоргенсен показано, что даже результаты кандидата с отставанием более чем на порядок от лидера обладают похожими статическим характеристиками. На графиках из Милуки выглядит подозрительно скопление у оси абсцисс крайне низких, почти нулевых результатов Трампа и Йоргенсен на участках размером до примерно 800—1000 зарегистрированных избирателей. У Байдена на тех же участках горизонтальной оси соответствует небольшое сгущение точек. Это может свидетельствовать о краже голосов, отданных за Трампа и Йоргенсен, на небольших участках, и о вбросах бюллетеней в пользу Байдена для достижения гладкого, равномерного результата на всех участках, который характеризуется меньшей дисперсией. Отклонения от закона Бенфорда лучше объясняются на данных с Гавайев. Отклонение от этого закона у данных по Трампу и Йоргенсен в Милуоки требуют специальных и неочевидных объяснений. Также вызывает подозрение, что кривая Байдена слишком точно (со смещением) копирует кривую распределения первых цифр размера участков, что может свидетельствовать о неестественно малой дисперсии. Однако все перечисленное может быть объяснено демографическими, географическими факторами и особенностями голосования по почте, которые у меня не было рассмотреть с необходимой тщательностью.

1 https://mkecitywire.com/stories/564495243-analysis-seven-milwaukee-wards-report-more-2020-presidential-votes-than-registered-voters-biden-nets-146k-votes-in-city

2 https://eu.usatoday.com/story/news/factcheck/2020/11/05/fact-check-milwaukee-wards-did-not-have-more-votes-than-voters/6180296002/

3 https://en.wikipedia.org/wiki/Benford%27s_law

4 https://www.cambridge.org/core/services/aop-cambridge-core/content/view/3B1D64E822371C461AF3C61CE91AAF6D/S1047198700012808a.pdf/benfords_law_and_the_detection_of_election_fraud.pdf

5 https://county.milwaukee.gov/EN/County-Clerk/Off-Nav/Election-Results/Election-Results-Fall-2020

5 https://elections.hawaii.gov/election-results/

→ Эта тема также отражена в заметке Прочь сомнения?.

Оригинальная заметка в Facebook была удалена, комментарии архивированы. Если вы были участником дискуссии, с удовольствием предоставлю вам копию архива.

Все заметки на эту тему

По закону Бенфорда
Прочь сомнения?