Объясните мне пожалуйста, что означает "Сглаживание" при построении графика. И соответсвенно, что меняется при изменении показателя сглаживания.
Спасибо.
Здравствуйте.
Применяя сглаживание, Вы получаете усредненные данные о частоте употребления слова за период, равный величине сглаживания.
Например, при сглаживании 5 график отражает усредненные данные об изменении частотности слова в диапазоне пять лет.
Таким образом наглядно показана тенденция изменения употребительности слова за конкретные периоды времени.
При сглаживании 0 на графике показана не общая тенденция, а количество употреблений искомого слова в конкретный год.
Большое спасибо за быстрый ответ!
Я все-таки не могу объяснить себе следующее: при поиске слова "вменяемый" колличество результатов, к примеру, на 1726 - 3, а на графике при сглаживании "0" около 48и.
объсните, пожалуйста.
Спасибо за вопрос. Да, здесь нужно уточнение.
График показывает изменение частоты на миллион словоформ. Частота вычисляется так: число из левой таблицы ("Найдено") разделить на число из правой таблицы ("Всего") и умножить на 1 миллион. "Всего" - это сколько всего в среднем словоформ в корпусе есть в документах за этот год (с учетом того, что многие документы датированы не одним годом, а диапазоном лет).
Для Вашего примера с 1726 годом: 3 вхождения надо разделить на 61926 (количество словоупотреблений в текстах за 1726 год) и умножить на миллион. Получим ок. 48.
Большое спасибо за развернутый ответ, но я все еще в замешательтсве: если "При сглаживании 0 на графике показана не общая тенденция, а количество употреблений искомого слова в конкретный год", то на графике, как я понимаю, должно быть 3, т.е. КОЛИЧЕСТВО употреблений за 1726 г.,
Обратите внимание, что ресурс называется Распределение по годам (частота на миллион словоформ)
Имеется в виду ОТНОСИТЕЛЬНАЯ частота. Чем она отличается от АБСОЛЮТНОЙ частоты?
Абсолютная частота показывает количество словоупотреблений, или сколько раз данное слово (или словоформа) повторяется в выборке, она является целым числом. Для вашего примера это число 3. Его можно увидеть в левой таблице под 1726 годом.
Относительная частота получается из абсолютной, если ее поделить на объем выборки. Таким образом, относительная частота является дробным числом из промежутка от 0 до 1 и показывает, какую долю данное значение составляет от всего объема выборки. Для вашего примера относительная частота приблизительно равна 0,000048 (3 : 61926). Для удобства вычислений и графического представления результат масштабируют - рассчитывают частоту на миллион словоформ, то есть умножив 0,000048 на 1000000, получаем 48, что соответствует пику под 1726 годом. График соединяет точки, каждая из которых соответствует ОТНОСИТЕЛЬНОЙ частоте употребления слова в определенный период на миллион словоформ.