Статистика лингвистического анализа библиотеки и средние значения всех книг

Анализ проводился только над русскоязычными текстами. Минимальный размер обрабатываемой fb2 книги - 50 Кб. За одну страницу принято среднее значение в 1800 символов. Уникальные слова - это все встреченные уникальные слова при разборе (включая слова с ошибками, в разных склонениях, придуманные слова и имена и т.д.)

Суммарные данные анализа:

Всего обработано513917 книг
Суммарная длинна текстов207,369,515,947 знаков
Суммарная длинна диалогов57,186,991,059 знаков
Суммарное количество слов31,154,027,677 слов
Всего страниц115,462,122 страниц
Всего предложений2,793,759,852 предложений

Средние данные книг:

Средняя длинна текста403508 знаков
Средняя длинна диалогов111277 знаков
Среднее количество слов в произведении60621 слов
Среднее количество страниц в произведении225 страниц
Средняя длина слова5.29 знаков
Среднее количество предложений в произведении5436 предложений
Средняя длина предложения80 знаков
Средняя доля диалогов в тексте27 %
Средняя доля авторского текста73 %
СДП диалогов69 знаков
СДП авторского текста96 знаков

Средний активный словарный запас

Всего использовано уникальных слов2,268,266 слов
Средний активный авторский словарный запас (САСЗ)12826
Средний активный авторский не словарный запас (САНСЗ)463
Удельный САСЗ на 3000 слов текста1488
Удельный САСЗ на 10000 слов текста3857
Удельный САСЗ на 100000 слов текста20887

Статистика букв и знаков препинания

Всего букв164,278,392,142 букв
Всего знаков препинания7,212,551,121 знаков

ЗнакСуммарное количество (шт.)Суммарное среднее количество на 1000 слов (шт.)
, запятая3,512,160,572112.59
. точка2,462,367,95980.41
- тире410,600,99614.05
? вопросительный знак274,085,5689.27
! восклицательный знак191,023,7447.01
... многоточие21,152,5090.83
!.. восклицательный знак с многоточием5,258,0950.2
?.. вопросительный знак с многоточием4,197,8740.15
!!! тройной восклицательный знак1,716,1090.08
?! вопросительный знак с восклицанием9,917,5330.39
" кавычка38,699,7191.44
() скобки64,013,7312.09
: двоеточие150,994,7255.18
; точка с запятой66,362,1132.11
БукваВсего (шт.)Средняя частота использования (в %)
А13,391,993,0048.21
Б2,750,913,1631.68
В7,248,173,9234.38
Г2,829,734,7231.71
Д4,955,484,4373.02
Е-Ё13,793,030,1318.38
Ж2,829,734,7231.71
З2,762,376,6771.69
И-Й13,230,835,0187.97
К5,541,867,7953.41
Л7,863,010,6314.8
М5,319,710,3303.24
Н10,863,044,3336.57
О18,136,057,67710.98
П4,637,557,2072.82
Р7,462,242,3564.49
С8,835,783,0005.34
Т10,162,463,8696.2
У4,582,887,0492.83
Ф318,143,6400.19
Х1,493,743,5190.9
Ц647,519,9780.39
Ч2,404,713,7531.48
Ш1,343,063,8930.84
Щ591,608,3940.35
Ь-Ъ3,232,939,9881.99
Ы3,086,339,1811.89
Э566,853,3000.34
Ю1,009,590,7710.62
Я3,541,020,8702.17
Диаграма использования букв в русском языке

Сумма частей речи

Часть речиВсего в текстах (шт.)средний % в текстах
Существительное8,500,894,40923.17
Глагол2,966,530,68320.7
Местоимение-существительное2,966,530,68315.72
Предлог2,247,997,28110.35
Союз2,705,167,1828
Прилагательное2,247,997,2815.95
Наречие1,844,257,4875.68
Местоимение-прилагательное1,382,770,9264.16
Частица1,439,076,8273.77
Местоименное наречие504,223,5271.39
Числительное178,263,1870.53
Числительное-прилагательное72,922,9800.16
Междометие31,361,4580.04
Часть композита - сложного слова5,027,6860.01