Не отставая от британских учёных, решил поиграть в числа с Ubuntu. Какое самое длинное название? Какие буквы чаще повторяются? Если интересно, то приступаем ...
Данная таблица хранит кодовые названия каждого релиза, которое состоит из двух слов. Лидер Canonical Марк Шатлворт традиционно даёт имя новому релизу, в котором оба слова начинаются на одну и ту же букву, а с релиза Ubuntu 5.04 Hoary Hedgehog начали с буквы B и двигаются вперёд по английскому алфавиту. Интересно, а в будущем, когда дойдём до буквы Z, то куда будем двигаться?
Warty | Warthog | 5 | 7 | 12 |
Hoary | Hedgehog | 5 | 8 | 13 |
Breezy | Badger | 6 | 6 | 12 |
Dapper | Drake | 6 | 5 | 11 |
Edgy | Eft | 4 | 3 | 7 |
Feisty | Fawn | 6 | 4 | 10 |
Gutsy | Gibbon | 5 | 6 | 11 |
Hardy | Heron | 5 | 5 | 10 |
Intrepid | Ibex | 8 | 4 | 12 |
Jaunty | Jackalope | 6 | 9 | 15 |
Karmic | Koala | 6 | 5 | 11 |
Lucid | Lynx | 5 | 4 | 9 |
Maverick | Meerkat | 8 | 7 | 15 |
Natty | Narwhal | 5 | 7 | 12 |
Oneiric | Ocelot | 7 | 6 | 13 |
Precise | Pangolin | 7 | 8 | 15 |
Quantal | Quetzal | 7 | 7 | 14 |
Raring | Ringtail | 6 | 8 | 14 |
Saucy | Salamander | 5 | 10 | 15 |
Trusty | Tahr | 6 | 4 | 10 |
Среднее ариф. | 5,9 | 6,15 | 12,05 | |
Самое короткое | 4 | 3 | 7 | |
Самое длинное | 8 | 10 | 15 |
Д1 - это длина прилагательного.
Д2 - длина названия.
Д1+2 - длина всего имени.
Самоё короткое имя (прилагательное + название) у релиза Ubuntu 6.10 Edgy Eft - 7 букв. 4 буквы в прилагательном и 3 в названии. Интересный момент в том, что релиз-предшественник 6.06 должен быть 6.04, но задержался. Получается, что релиз 6.10 имеет не только самое короткое название, но и самое краткое расстояние между ним и предыдущим релизом - 4 месяца.
Релизов с самым длинным именем в 15 символов аж 4 штуки:
У релиза Ubuntu 13.10 Saucy Salamander самое длинное название: Salamander = 10 букв. А у двух релизов Ubuntu - Intrepid Ibex и Maverick Meerkat - самое длинное прилагательное в 8 букв.
В среднем:
Возьмём все имена (прилагательные + название) запишем в нижнем регистре и без пробелов в одну строку
wartywarthoghoaryhedgehogbreezybadgerdapperdrakeedgyeftfeistyfawngutsygibbonhardyheronintrepidibex
jauntyjackalopekarmickoalalucidlynxmaverickmeerkatnattynarwhaloneiricocelotprecisepangolinquantalquet
zalraringringtailsaucysalamandertrustytahr
Программно подсчитаем и узнаем, что в строке 241 символ. Подсчитаем частоту распределения букв в строке, что раньше использовалось в криптоанализе при взломе шифров.
Получилась таблица, где
Кол-во - это количество вхождений каждой буквы английского алфавита в строке.
Частота Ubuntu - это частотное распределение английских букв в нашей строке имён Убунту. Получено как процентное соотношение (Кол-во каждой буквы / 241) * 100.
Частота English - эти данные взяты из английской википедии Relative frequencies of letters in the English language и отражают естественное частотное распределение английских букв в английских текстах.
a | 30 | 12,45 | 8,1 |
b | 5 | 2,07 | 1,4 |
c | 8 | 3,32 | 2,7 |
d | 9 | 3,73 | 4,2 |
e | 23 | 9,54 | 12,7 |
f | 3 | 1,24 | 2,2 |
g | 10 | 4,15 | 2 |
h | 8 | 3,32 | 6 |
i | 15 | 6,22 | 6,9 |
j | 2 | 0,83 | 0,15 |
k | 6 | 2,49 | 0,7 |
l | 11 | 4,56 | 4 |
m | 4 | 1,66 | 2,4 |
n | 15 | 6,22 | 6,7 |
o | 11 | 4,56 | 7,5 |
p | 6 | 2,49 | 1,9 |
q | 2 | 0,83 | 0,095 |
r | 22 | 9,13 | 5,9 |
s | 6 | 2,49 | 6,3 |
t | 17 | 7,05 | 9 |
u | 7 | 2,90 | 2,7 |
v | 1 | 0,41 | 0,978 |
w | 4 | 1,66 | 2,3 |
x | 2 | 0,83 | 0,15 |
y | 12 | 4,98 | 1,9 |
z | 2 | 0,83 | 0,074 |
Самая часто встречающаяся буква - это а. 30 букв а во всех именах релизов Убунту. Самая редкая буква - v. 1 буква v находится в прилагательном Maverick релиза Ubuntu 10.10 Maverick Meerkat.
Строим график по данным.
И что говорит график? Да фиг его знает . Имена релизов даёт самоназначенный великодушный пожизненный диктатор (Self-Appointed Benevolent Dictator for Life, SABDFL) Марк Шаттлворт после обдумывания. Имена релизов - его видение ситуации.
Наблюдается повышенная, по сравнению с естественным распределением, "тяга" к буквам: a, r, y. Буквы e, s - Марк, неявно для себя, недолюбливает, хотя английская буква e - самая часто встречающаяся буква в английских текстах, наверное, из-за артикля the.
241 - количество букв в строке, возможно, недостаточно для правильного суждения. С появлением новых релизов суммарное количество букв будет возрастать и интересно будет посмотреть изменения и/или тенденцию.
Дополнительные материалы:
Статистика использования рабочих сред в Ubuntu.