Прочь сомнения?

Обычные люди редко признают свои ошибки. Еще реже делятся тем, что искали подтверждение своей точки зрения, а нашли опровержение. Это не тот случай. Ниже последует подробный рассказ о том, как я пытался обнаружить статистические признаки манипуляций на прошлогодних выборах президента США, нашел их, но потом потерял.

В ноябре прошлого года я сделал анализ первых свежих результатов выборов президента США в графстве Милуоки, штат Висконсин, и штате Гавайи. И хотя целью была проверка закона Бенфорда на данных по отдельным избирательным участкам, я обратил внимание на другие статистические особенности результатов голосования в графстве Милуоки, которые обычно не встречаются при анализе аналогичных данных, полученных на других выборах или из других регионов. Поскольку я не специалист по электоральной статистике, у меня нет собственной убедительной гипотезы, объясняющей выявленные аномалии. Они не обязательно свидетельствуют о мошенничестве на выборах, а могут быть вызваны демографическими и иными особенностями графства. Чтобы предположение о массовой манипуляции на этих выборах можно было надежно подтвердить или опровергнуть только статистическими методами, необходимо было бы получить доступ к данным по всем избирательным участкам в стране (их около трехсот тысяч), причем желательно в сравнении с предыдущими аналогичными выборами за достаточно продолжительный период времени.

Вернувшись к этой теме в апреле, я начал поиски итоговых данных голосования по избирательным участкам, полагая, что они должны быть за это время собраны и доступны даже с учетом региональных особенностей США. Мне их найти так и не удалось; они до сих пор находятся в процессе сбора, проверки и обобщения. Поэтому в качестве развлечения я попробовал проанализировать хотя бы доступные сейчас данные по графствам и приравненным к ним территориальным единицам. Сведения по выборам 2020 года взяты с сайта Kaggle,1 в качестве источника указан Thomson Reuters. Сведения по выборам 2000—2016 гг. взяты с сайта MIT Election Lab.2

Изначально я не рассчитывал найти что-то разоблачительное: наиболее «технологичные» манипуляции на выборах можно обнаружить только при анализе данных с избирательных участков, а на уровне графств было бы видно только самое грубое директивное вмешательство (вроде того, что имеет место в России или Белоруссии). Такого, разумеется, в США в этот раз не было. Несмотря на то, что закон Бенфорда (для одной и двух цифр) на данных Thomson Reuters 2020 года соблюдался идеально, остальное выглядело крайне подозрительно. На одной диаграмме рассеяния был виден, как я его называю, «двойной хвост кометы».

Рис. 1. Зависимость численности избирателей графства (X) от числа голосов, поданных за каждого кандидата (Y). Логарифмические шкалы. Синий цвет — результаты кандидата от Демократической партии, красный — результаты кандидата от Республиканской партии. Диаграммы в правом нижнем углу построены на данных, структура которых не соответствовала структуре данных за предыдущие годы, поэтому вводят в заблуждение.

На другой — отличные от предыдущих лет формы «облака».

Рис. 2. Зависимость численности избирателей (X) графства от успеха каждого из кандидатов в процентах голосов (Y). Логарифмические шкалы. Диаграммы в правом нижнем углу построены на данных, структура которых не соответствовала структуре данных за предыдущие годы, поэтому вводят в заблуждение.

На основной гистограмме частоты относительных результатов по графствам было явно видно биномиальное распределение.

Рис. 3. Частота графств с результатом каждого из кандидатов в процентах голосов с шагом в один процент. Гистограммы в правом нижнем углу построены на данных, структура которых не соответствовала структуре данных за предыдущие годы, поэтому вводят в заблуждение.

Быстро проверив все то же самое на данных по выборам 2000, 2004, 2008, 2012 и 2016 годов я убедился, что там ничего подобного не встречается: везде красивые «однохвостые кометы», «сердцеподобные облака» и гистограммы с распределениями, похожими на нормальное. Я показал свои результаты еще нескольким людям и они согласились с тем, что 2020 год выглядит подозрительно на фоне предыдущих лет. Можно было начать выдвигать гипотезы, основной из которых могло быть влияние «почтового голосования». Впрочем, и другие объяснения могли бы иметь право на существование. Однако я предпочел подождать с публикацией своих подозрений и проверить все еще раз. Это заняло месяц.

Мне хотелось выяснить, в каких конкретно графствах результаты приводят к появлению второго «хвоста кометы» и биномиальному распределению. На графиках видно, что такие графства должны быть по численности населения меньше, чем в среднем по всей выборке. Байден набирал в них больше голосов, чем Трамп. То есть если бы этим статистическим особенностям соответствовали реальные манипуляции на выборах, они были бы в пользу кандидата от Демократической партии. Альтернативной гипотезой было бы то, что в этих графствах показаны честные результаты, а во всех остальных — искаженные, но она опровергалась тем, что противоречила бы картинкам предыдущих лет и исходила бы из предположения, что в 2020 г. предпочтения американцев резко изменились по сравнению с предыдущими двадцатью годами.

Разгадка, как оказалось, лежала на поверхности. Данные MIT были приведены по немногим более чем трем тысячам территорий. Это примерно соответствует числу графств в США и эквивалентных им единиц. В данных Thomson Reuters таких территорий около 4700. Сравнив два списка, я выяснил, что в некоторых штатах сведения по 2020 г. были приведены не по графствам, а по муниципалитетам. После того, как данные Thomson Reuters были приведены к виду, сопоставимому с данными MIT, все статистические аномалии исчезли. После этих замечаний и объяснений можно привести серии окончательных картинок, которые иллюстрируют вышесказанное.

Рис. 4. Зависимость численности избирателей графства (X) от числа голосов, поданных за каждого кандидата (Y). Логарифмические шкалы. Данные по выборам 2020 года приведены в соответствие со структурой данных по предыдущим выборам.
Рис. 5. Зависимость численности избирателей (X) графства от успеха каждого из кандидатов в процентах голосов (Y). Логарифмические шкалы. Данные по выборам 2020 года приведены в соответствие со структурой данных по предыдущим выборам.
Рис. 6. Частота графств с результатом каждого из кандидатов в процентах голосов с шагом в один процент. Данные по выборам 2020 года приведены в соответствие со структурой данных по предыдущим выборам.

Тем не менее, неоднородность исходных данных по 2020 году дала возможность посмотреть подробнее на результаты в отдельных штатах, хотя это еще не данные с избирательных участков. Конкретно речь идет о штатах Коннектикут (169 муниципалитетов), Мэн (498), Массачусетс (351), Нью-Гэмпшир (237), Род-Айленд (39) и Вермонт (246). Это сопоставимо с числом избирательных участков в графстве Милуоки (478). Все эти наборы данных, даже такой крохотный, как Род-Айленд, демонстрируют общие статистические свойства: соблюдение закона Бенфорда, «кометообразное» рассеяние абсолютного числа голосов, поданых за кандидатов, «облачное» рассеяние относительных результатов и похожее на нормальное распределение частоты относительных результатов по муниципалитетам. Это возвращает меня к вопросу, который был задан в ноябре прошлого года: какие могут быть «естественные» объяснения особенностей результатов выборов в графстве Милуоки и почему они настолько отличаются от всего, с чем мне их удалось сравнить? Ответ надо искать, видимо, путем анализа исторических данных по этому графству и их сопоставления с другими графствами.

1 US Election 2020. Race to Presidential Election 2020 by County.

2 MIT Election Lab. Data.

Все заметки на эту тему

По закону Бенфорда
Прочь сомнения?