Сколько английских слов Вы знаете? (тест)

Простенький тест на объем Вашего вокабуляра (стырил в рекламной строке ABBYY Lingvo). Смущает единственное: некоторые слова (особеннозакавыристые) не кажутся английскими! Но проверять этимологию нет времени.

Ну, мало ли заимствованных слов? Там были некоторые типа «эпигон» или тп, которые в русском тоже есть — и тоже как бы нерусские

redhotborscht написал 14 октября 2012 07:37

Какой хороший у вас результат, у меня гораздо меньше вышел.

Соглашусь с вами насчет теста. Почитайте описание метода. Поймете, что тест точнее всего считает как раз студентов/бегиннеров, то есть до 15000 где-то по их данным. Хотя там и указана погрешность в 10%, но если посудить, то включение в выборку редких слов уже сильно зависит от характера прочитанной литературы. Тут уж попал тестируемый или нет. Так что я согласен с той указанной погрешностью в 10% только для морских свинок с не очень большим запасом.

И похоже что там действительно источником послужила в основном художественная литература{в которой, кстати, чаще всех других видов литературы встречаются отсутствующие в словаре слова(неологизмы и пр.)}.

Со страницы теста:

Even though our dictionary contains around 70,000 headwords (and many more derived forms), we were surprised to find only approximately 45,000 of them present in the 100-million-word BNC.

BNC — собрание литературы общим объемом 100 миллионов слов. Только в описании BNC значится, что из этих 100 млн 90% письменной речи, из которых тексты с одним авторов в выборе до 45000 слов, т. е. до 0,5% письменной речи. Всего текстов 2688. То есть, возможно максимум 2000 текстов по 45к слов, а среднее кол-во слов в 2688 текстах 33,4 к. А частотность слов брали из http://www. kilgarriff. co. uk/bnc-readme. html. А там написано, что для подсчетов брали только тексты, не менее 5000 слов, коих оказалось 2018. В общем, все это дает понять, что больше всего в тесте было использовано худ. литературных слов. Да и на научные публикации на 100 млн слов денег не хватит, ведь сейчас электронная статья объемом 5 стр стоит 20$.

Для таких, как Snarka, нужна выборка, отсортированная не по частоте, а, например, с точки зрения информации. Потому что чем меньше несет информации слово, тем менее вероятно, что читающий посмотрит в словарик. Пример критического условия это слова паразиты, значения которых мало кто знает, но часто использует в речи для заполнения пауз или для других малоинформативных иррациональных целей. То есть частота не значит, что слово скорее всего понимается или воспроизводится по своему значению. В таком тесте можно было бы точнее определить что-то среднее между сл. запасом понимания и запасом воспроизведения.

Хорошо, что хотя бы такие тесты в свободном доступе есть!