Главная > Новости > Анализируй это, анализируй то

Анализируй это, анализируй то

С подачи Алексея Экслера опробовал анализ текстов при помощи Istio.com. Как пишут сами создатели сервиса: “Удобен для копирайтеров и тех, кто заказывает статьи. Показывает такие параметры как длина текста, наиболее частые слова в тексте и другие полезные мелочи. Дополнительной функцией сервиса является проверка текста на уникальность – если статья была скопирована из интернета, то сервис покажет список сайтов, на которых можно его найти.”

Вот так выглядит анализ моей декабрьской статьи в “Компьютерре”:

Результаты анализа

Общая статистика:

Длина с пробелами 27746 символов
Длина без пробелов 24031 символов
Всего слов 3686
Водность текста 27/33
Тошнота 11.53
Топ10 слов образование, интернет, технология, образовательный, учитель, информация, знание, человек, преподаватель, год
Словарь текста 1429 слов
Словарь ядра 1119 слов
Язык текста rus
Тематика текста (приблизительно) Телевидение, Технологии, Образование

Наиболее частые слова (БЕЗ стоп-слов):

Рел. – релевантность слова.

Срез Слово Колво раз Рел. Доля в ядре Доля в тексте
1 1 образование 36 3.12 1.8% 0.9%
2 3 интернет 27 2.34 1.3% 0.7%
3 4 технология 22 1.9 1.1% 0.5%
4 5 образовательный 17 1.47 0.8% 0.4%
5 6 учитель 16 1.38 0.8% 0.4%
6 6 информация 15 1.3 0.7% 0.4%
7 7 знание 14 1.21 0.7% 0.3%
8 8 человек 13 1.12 0.6% 0.3%
9 8 преподаватель 13 1.12 0.6% 0.3%
10 9 год 12 1.04 0.6% 0.3%
11 10 обучение 11 0.95 0.5% 0.2%
12 10 развитие 10 0.86 0.5% 0.2%
13 11 студент 10 0.86 0.5% 0.2%
14 11 работа 10 0.86 0.5% 0.2%
15 12 роль 10 0.86 0.5% 0.2%
16 12 ученик 9 0.78 0.4% 0.2%
17 13 вопрос 9 0.78 0.4% 0.2%
18 13 модель 9 0.78 0.4% 0.2%
19 13 ресурс 9 0.78 0.4% 0.2%
20 14 информационный 9 0.78 0.4% 0.2%

Наиболее частые слова (Включая стоп-слова):


Слово Повторений Доля в ядре Доля в тексте
и 133 6.8% 3.6%
в 118 6% 3.2%
не 71 3.6% 1.9%
что 55 2.8% 1.4%
на 38 1.9% 1%
образование 36 1.8% 0.9%
он 36 1.8% 0.9%
это 35 1.7% 0.9%
а 34 1.7% 0.9%
с 32 1.6% 0.8%
как 31 1.5% 0.8%
мы 29 1.4% 0.7%
интернет 27 1.3% 0.7%
к 27 1.3% 0.7%
который 26 1.3% 0.7%
технология 22 1.1% 0.5%
все 22 1.1% 0.5%
иза 20 1% 0.5%
для 20 1% 0.5%
один 19 0.9% 0.5%

Насколько я понял, карта текста отражает частоту употребления слов:

Очень понравилась возможность поиска заданного текста, чтобы понять, когда уровень цитирования, заимствования и воровства вдруг скажет: “Ты проснулся знаменитым!” А пока вот:

Результаты поиска

Текст НЕУНИКАЛЬНЫЙ.
Список сайтов, на которых был найден этот текст:
offline.computerra.ru
web2-science.ru
offline.computerra.ru
lib.rus.ec

Параметры “водность” и “тошнота” объясняются в ФАКе и на форуме ресурса.

В этот день…

  • 2009: Мотовун (Хорватия) — Это апдейт к рассказу об отдыхе в хорватской Истрии летом 2005 года.
    После прогулки по “столице” Истрии, Пазину, мы на стареньком [...]
  • 2009: Пореч (Хорватия) — Это апдейт к рассказу об отдыхе в хорватской Истрии летом 2005 года.

    Про Пореч ничего писать не буду – отзывов полно. [...]

  • 2009: Врсар (Хорватия) — Это апдейт к рассказу об отдыхе в хорватской Истрии летом 2005 года.

    Погоду заела совесть, было солнечно и жарко. Провели день [...]

  • 2009: Пула (Хорватия) — Это апдейт к рассказу об отдыхе в хорватской Истрии летом 2005 года.

    Пула встретила нас дождем близ Арены (прошли кругом, вполне [...]

  • 2009: Ровинь (Хорватия) — Это апдейт к рассказу об отдыхе в хорватской Истрии летом 2005 года.

    Ровинь… Что Ровинь? Сказка, как сказка… Соленый ветер и [...]

Связанные записи

  1. Пока что нет комментариев.
  1. Пока что нет уведомлений.