Есть хороший гугловский сервис, высчитывающий частотность слов в литературе различных языков.

Забив различные слова, я обнаружил удивительное явление, касающееся самого, пожалуй, загадочного периода СССР: времени между Сталиным и Горбачёвым.

Внутри много графиков и некоторые рассуждения.
И вот ещё краткое объяснение.

GD Star Rating
loading...
Tagged with →  

88 Responses to гугловский сервис, высчитывающий частотность слов в литературе различных языков

  1. Niklybok:

    Вводя различные слова на период между 1920 и 2008 годами, я заметил, что в большинстве случаев на 1970 год приходится минимум частотности. Стало любопытно: а есть ли такие слова, которые встречаются в литературе того времени особенно часто? И вот что получилось.

  2. Niklybok:

    Вот серия графиков, посвящённых различным общечеловеческим и философским вопросам:

    размер 499x183, 30.27 kb

  3. Niklybok:

    Извиняюсь за мелкость подписей, но ничего не могу поделать.

  4. Niklybok:

    Как можно заметить, эти понятия относительно редко встречаются в литературе того времени. А вот цикл понятий, касающихся техники:

  5. Niklybok:

    Обратите внимание: с 1960 года до 1998 график монотонно возрастает.

  6. Tnebrosb:

    Да–да, давайте больше интересных графиков.

  7. Niklybok:

    Крайне популярный термин советского времен. Означает искусственную конкуренцию производителей в плановой экономике. Резко возрастает с конца шестидесятых и затем резко убывает с начала восьмидесятых.

  8. Niklybok:

    Термин «машина» вытесняется термином «механизм», потому что первый всё больше означает «автомобиль», что хорошо заметно с конца девяностых.

  9. Niklybok:

    На основании этих графиков можно сделать следующее резюме. Дискуссия между «физиками» и «лириками», начавшись после смерти Сталина закончилась к середине шестидесятых полной победой «физиков». Люди того времени, скорее всего, довольно мало думали о разных абстрактных гуманистических вопросах, и довольно много концентрировались на работе. Особенно в этом смысле примечателен график «деньги». С середины восьмидесятых тенденция резко меняет направление.

    Спасибо за внимание.

  10. Tranc:

    фиксировалась вся парадигма? Т.е. вычислительный в т.ч.?

  11. Niklybok:

    насколько я понимаю, нет. Это можно легко проверить, вбив несколько запросов.

  12. Tranc:

    почему искусственную?

  13. Niklybok:

    более того, сервис не знает букву ё, различает дореволюционное и советское написание слов и т. д.

  14. Tranc:

    ЭВМ vs Компьютер 🙂

  15. Niklybok:

    потому что в плановой экономике нет естественной конкуренции.

  16. Tranc:

    она вполне есть, просто она не за прибылью, а за исполнением плана.

  17. X44-NEd:

    Это не конкуренция. С Госпланом, что ли, конкурировать?

  18. Niklybok:

    а вот ещё страннее.

  19. Niklybok:

    : конкуренция — это буквально и есть «соревнование», «борьба» в переводе с некоторых европейских языков. В плановой экономике естественного соревнования нет, поэтому создаётся искусственное, так называемое «социалистическое».

  20. X44-NEd:

    Чипы на дизельной тяге! У этого слова есть какое–то ещё значение в русском языке, интересно?

  21. X44-NEd:

    Ты не понял, я спрашивал про «чип».

  22. X44-NEd:

    В смысле — есть ли у него омоним? Я такого припомнить не могу.

  23. Zvnamore:

    есть, «чипой» называется лёд. Соответственно, слово «чипа» он может индексировать как родительный падеж от «чип».

  24. Niklybok:

    насколько я понял, сервис отслеживает только буквальные употребления.

    Вообще, было бы чертовски мило, если бы кто–нибудь нарыл по–больше информации о работе сервиса, разжевал и нам бы всем объяснил.

  25. X44-NEd:

    Не оно разве?

  26. Niklybok:

    нет, к сожалению.

  27. Vonoiral:

    //www.google.com/search?q=%22%D1%87…:1,1,1800,1816&lr=l ang_ru

    там каждое употребление можно найти в конкретной книге, ссылки внизу 1800–1820

  28. X44-NEd:

    Дружище, большое тебе спасибо, ты очень отзывчивый человек! Но я имел ввиду не просто наличие этого слова в русском языке, а частоту его употребления до 50–х годов 20 века.

  29. Zvnamore:

    а ты посмотри в книгах — сплошь ошибки распознавания, в лучшем случае сокращения. То есть доверять этому сервису стоит с большой осторожностью.

  30. X44-NEd:

    Да, я примерно так и подумал, и в своём info они стыдливо пишут: «but some errors do slip through«. Кроме того, применение smothing, особенно более 7–8 как–то странно отражается на результатах. Жаль, но тогда и весь пост подлежит сомнению…

    И вот ещё вопрос, на который в info даётся очень расплывчатый ответ: насколько репрезентативна выборка, каким количеством книг, особенно — начала века, пользуется сервис? Просто, особенно учитывая «проскользнувшие ошибки», если число публикаций в анализе что–то около пары десятков, кривая может делать самые невероятные кульбиты на ранних этапах.

  31. Vonoiral:

    ошибка распознавания в тренде константа, так что её легко можно вычитать из графика, и это в худшем случае. Обычно она просто не попадает в 90–95%.

  32. Vonoiral:

    да, а о размере выборки можно судить по ступенчатости графика 😉

  33. X44-NEd:

    Ну–у?! А ты поэкспериментируй с терминами, с аппроксимацией, с синонимами. И, кстати, это точно, что ошибка распознавания — константа? Прям в одном дата–центре делали, в одно время, одним и тем же сертифицированным инструментарием? И источники все одинакового качества были, да? Это всё–таки риал–уорлд, а не модель.

  34. X44-NEd:

    Во! Вот меня и удивили результаты с разной аппроксимацией.

  35. Niklybok:

    я там посмотрел, если внизу нажать на примеры в диапазоне годов, то вываливается очень много книг.

  36. X44-NEd:

    Спасибо. Мне всё стало понятно. И нифига ошибки чтения не константа, с учётом того, что а). алгоритмы распознавания создавались для современного языка и б). качество полиграфии в прошлом, и степень сохранности документов сильно отличаются от современных.

  37. Niklybok:

    с нетерпением жду революцию в гуманитарных науках, особенно в истории.

  38. X44-NEd:

    Хм. На основе данного сервиса?

  39. Niklybok:

    вот здесь пишут, что это отличное начало внедрения естественно научных подходов в гуманитарные науки. По–моему, разумно.

  40. Niklybok:

    Да, и конечно, слово «шуба» хорошо вписывается в общую парадигму.

    Я бы назвал это явление «эффектом шубы».

    размер 499x183, 50.46 kb

  41. Niklybok:

    Вот ещё слово–число.

    размер 499x183, 48.96 kb

  42. Rohorrrp:

    интересно. Во время ВМВ чаще использоволась «ложь» нежели «истина».

  43. Peels:

    Объясните ситуацию, плиз. Почему в 2006м взлетел интерес к ложкам, а затем к ножам?

    размер 499x183, 52.14 kb

  44. Niklybok:

    ложки вышли на страницы всякой эзотерики и народной медицины. Ножи кроме того чаще стали упоминаться в детективах и псевдоисторической лабуде.

    Я думаю, это связано в первую очередь с тем, что гугловцы вряд ли отсканировали много подобной литературы прошлых лет. Её нормальный человек не хранит, да и смысл сканировать ерунду всякую?

    Отсюда можно сделать такой ещё вывод. Интерес ко всякой гуманитарщине несомненно до шестидесятых выше чем после шестидесятых. Но вот не следует ли связывать повышение цитируемости гуманитарщины в последнее время с тем, что она просто недолговечнее технарщины, и поэтому (тут мне лень писать, легко додумать самому).

  45. Setagadn:

    Я гоняю уже несколько дней, тоже с интересными пиками.
    Во–первых, почти у всех слов есть резкие пики на мировых войнах.
    Во–вторых, самая смешная пара — drugs,flowers. Попробуйте сами!

  46. Niklybok:

    да, это чума 🙂

  47. X44-NEd:

    То–есть — хиппи–то и не знали?!

  48. EgaM_elt:

    image

    Совершенно безумный фалический символ. А с чем может быть связано такой резкий рост упоминаний? Странно если про японского императора — руководителя империалистической Японии.

  49. Setagadn:

    пропагандистская литература, бомбы, последующее отречение.

  50. EgaM_elt:

    ну отрекаться то он не стал всё таки.
    Да и странно что один только японский император делает такую огромную работу.

  51. X44-NEd:

    Да это не он делает, а советские публицисты и журналисты.

  52. Setagadn:

    ты слово на русском ввел, и анализировались русскоязычные источники. Потом, 0.003% — не так чтобы жуткая частота.
    Кстати, примерно в то же время, кажется, и китайский император двинул в Союз на посидеть.

  53. Niklybok:

    гугл показывает, что в те времена было опубликовано огромное количество исторических работ. «Император» там на каждой странице.

  54. X44-NEd:

    используя этот сайт, например, вы всегда могли бы радовать нас картинками, которые смогли бы разглядеть наши близорукие глаза.

  55. Niklybok:

    ура! Спасибо!

  56. Niklybok:

    проверка

  57. Tnamo:

    водка, пиво, сок, самогон

    размер 499x183, 82.48 kb

  58. Tnamo:

    героин, кокаин, анаша, опиум

    размер 499x183, 68.14 kb

  59. Tnamo:

    сказка,быль

    размер 499x183, 45.58 kb

  60. Erodelbr:

    всё — сиюминутно, кроме водки.

Добавить комментарий