Статистика лингвистического анализа библиотеки и средние значения всех книг

Анализ проводился только над русскоязычными текстами. Минимальный размер обрабатываемой fb2 книги - 50 Кб. За одну страницу принято среднее значение в 1800 символов. Уникальные слова - это все встреченные уникальные слова при разборе (включая слова с ошибками, в разных склонениях, придуманные слова и имена и т.д.)

Суммарные данные анализа:

Всего обработано574169 книг
Суммарная длинна текстов233,566,802,475 знаков
Суммарная длинна диалогов64,966,880,359 знаков
Суммарное количество слов35,125,028,958 слов
Всего страниц130,046,137 страниц
Всего предложений3,176,326,851 предложений

Средние данные книг:

Средняя длинна текста406791 знаков
Средняя длинна диалогов113149 знаков
Среднее количество слов в произведении61175 слов
Среднее количество страниц в произведении226 страниц
Средняя длина слова5.29 знаков
Среднее количество предложений в произведении5532 предложений
Средняя длина предложения79 знаков
Средняя доля диалогов в тексте27 %
Средняя доля авторского текста73 %
СДП диалогов69 знаков
СДП авторского текста96 знаков

Средний активный словарный запас

Всего использовано уникальных слов6,835,336 слов
Средний активный авторский словарный запас (САСЗ)12915
Средний активный авторский не словарный запас (САНСЗ)462
Удельный САСЗ на 3000 слов текста1488
Удельный САСЗ на 10000 слов текста3854
Удельный САСЗ на 100000 слов текста20833

Статистика букв и знаков препинания

Всего букв185,007,434,494 букв
Всего знаков препинания8,122,312,805 знаков

ЗнакСуммарное количество (шт.)Суммарное среднее количество на 1000 слов (шт.)
, запятая3,953,506,343112.38
. точка2,787,740,75680.69
- тире459,459,94013.88
? вопросительный знак310,329,0939.27
! восклицательный знак215,725,8816.98
... многоточие22,950,0240.79
!.. восклицательный знак с многоточием5,647,3530.19
?.. вопросительный знак с многоточием4,630,8670.15
!!! тройной восклицательный знак1,955,2200.08
?! вопросительный знак с восклицанием10,907,6240.38
" кавычка41,105,4621.36
() скобки70,024,5282.03
: двоеточие167,883,4995.1
; точка с запятой70,446,3571.99
БукваВсего (шт.)Средняя частота использования (в %)
А15,100,112,8328.22
Б3,095,052,1501.68
В8,154,109,7654.37
Г3,183,457,7341.71
Д5,576,162,0823.02
Е-Ё15,515,818,7748.37
Ж3,183,457,7341.71
З3,111,810,8451.69
И-Й14,876,965,6827.95
К6,240,823,3093.41
Л8,855,156,8564.8
М5,997,050,1643.24
Н12,226,979,9666.57
О20,426,384,80610.98
П5,226,056,2612.82
Р8,402,242,8424.49
С9,942,844,4585.34
Т11,457,333,7256.21
У5,167,827,3932.83
Ф356,979,7720.19
Х1,680,283,6890.9
Ц728,038,9500.39
Ч2,710,377,8281.48
Ш1,513,285,7700.84
Щ666,065,0820.35
Ь-Ъ3,647,407,3721.99
Ы3,477,072,7811.89
Э639,776,8410.34
Ю1,137,813,8610.62
Я4,005,510,5242.18
Диаграма использования букв в русском языке

Сумма частей речи

Часть речиВсего в текстах (шт.)средний % в текстах
Существительное9,553,318,82823.17
Глагол3,359,068,84120.7
Местоимение-существительное3,359,068,84115.72
Предлог2,520,466,95410.35
Союз3,055,528,7198
Прилагательное2,520,466,9545.95
Наречие2,087,927,1555.68
Местоимение-прилагательное1,561,316,3704.16
Частица1,628,213,7883.77
Местоименное наречие569,736,9971.39
Числительное200,546,2360.53
Числительное-прилагательное82,347,0570.16
Междометие35,465,8580.04
Часть композита - сложного слова5,609,5830.01