Анализируй это, анализируй то
С подачи Алексея Экслера опробовал анализ текстов при помощи Istio.com. Как пишут сами создатели сервиса: «Удобен для копирайтеров и тех, кто заказывает статьи. Показывает такие параметры как длина текста, наиболее частые слова в тексте и другие полезные мелочи. Дополнительной функцией сервиса является проверка текста на уникальность — если статья была скопирована из интернета, то сервис покажет список сайтов, на которых можно его найти.»
Вот так выглядит анализ моей декабрьской статьи в «Компьютерре»:
Результаты анализа
Общая статистика:
| Длина с пробелами | 27746 символов |
|---|---|
| Длина без пробелов | 24031 символов |
| Всего слов | 3686 |
| Водность текста | 27/33 |
| Тошнота | 11.53 |
| Топ10 слов | образование, интернет, технология, образовательный, учитель, информация, знание, человек, преподаватель, год |
| Словарь текста | 1429 слов |
| Словарь ядра | 1119 слов |
| Язык текста | rus |
| Тематика текста (приблизительно) | Телевидение, Технологии, Образование |
Наиболее частые слова (БЕЗ стоп-слов):
Рел. — релевантность слова.
| № | Срез | Слово | Колво раз | Рел. | Доля в ядре | Доля в тексте |
|---|---|---|---|---|---|---|
| 1 | 1 | образование | 36 | 3.12 | 1.8% | 0.9% |
| 2 | 3 | интернет | 27 | 2.34 | 1.3% | 0.7% |
| 3 | 4 | технология | 22 | 1.9 | 1.1% | 0.5% |
| 4 | 5 | образовательный | 17 | 1.47 | 0.8% | 0.4% |
| 5 | 6 | учитель | 16 | 1.38 | 0.8% | 0.4% |
| 6 | 6 | информация | 15 | 1.3 | 0.7% | 0.4% |
| 7 | 7 | знание | 14 | 1.21 | 0.7% | 0.3% |
| 8 | 8 | человек | 13 | 1.12 | 0.6% | 0.3% |
| 9 | 8 | преподаватель | 13 | 1.12 | 0.6% | 0.3% |
| 10 | 9 | год | 12 | 1.04 | 0.6% | 0.3% |
| 11 | 10 | обучение | 11 | 0.95 | 0.5% | 0.2% |
| 12 | 10 | развитие | 10 | 0.86 | 0.5% | 0.2% |
| 13 | 11 | студент | 10 | 0.86 | 0.5% | 0.2% |
| 14 | 11 | работа | 10 | 0.86 | 0.5% | 0.2% |
| 15 | 12 | роль | 10 | 0.86 | 0.5% | 0.2% |
| 16 | 12 | ученик | 9 | 0.78 | 0.4% | 0.2% |
| 17 | 13 | вопрос | 9 | 0.78 | 0.4% | 0.2% |
| 18 | 13 | модель | 9 | 0.78 | 0.4% | 0.2% |
| 19 | 13 | ресурс | 9 | 0.78 | 0.4% | 0.2% |
| 20 | 14 | информационный | 9 | 0.78 | 0.4% | 0.2% |
Наиболее частые слова (Включая стоп-слова):
| Слово | Повторений | Доля в ядре | Доля в тексте |
|---|---|---|---|
| и | 133 | 6.8% | 3.6% |
| в | 118 | 6% | 3.2% |
| не | 71 | 3.6% | 1.9% |
| что | 55 | 2.8% | 1.4% |
| на | 38 | 1.9% | 1% |
| образование | 36 | 1.8% | 0.9% |
| он | 36 | 1.8% | 0.9% |
| это | 35 | 1.7% | 0.9% |
| а | 34 | 1.7% | 0.9% |
| с | 32 | 1.6% | 0.8% |
| как | 31 | 1.5% | 0.8% |
| мы | 29 | 1.4% | 0.7% |
| интернет | 27 | 1.3% | 0.7% |
| к | 27 | 1.3% | 0.7% |
| который | 26 | 1.3% | 0.7% |
| технология | 22 | 1.1% | 0.5% |
| все | 22 | 1.1% | 0.5% |
| иза | 20 | 1% | 0.5% |
| для | 20 | 1% | 0.5% |
| один | 19 | 0.9% | 0.5% |
Насколько я понял, карта текста отражает частоту употребления слов:
Очень понравилась возможность поиска заданного текста, чтобы понять, когда уровень цитирования, заимствования и воровства вдруг скажет: «Ты проснулся знаменитым!» А пока вот:
Результаты поиска
Список сайтов, на которых был найден этот текст:
offline.computerra.ru
web2-science.ru
offline.computerra.ru
lib.rus.ec
Параметры «водность» и «тошнота» объясняются в ФАКе и на форуме ресурса.
В этот день…
- 2010: Цтибор Турба: встреча с классиком — Костромская арт-площадка «Станция» открыла свой новый проект «Открытую галерею» выставкой чешского театрального фотографа Виктора Кронбауэра и встречей с чешским же [...]
- 2009: Мотовун (Хорватия) — Это апдейт к рассказу об отдыхе в хорватской Истрии летом 2005 года.
После прогулки по «столице» Истрии, Пазину, мы на стареньком [...] - 2009: Пореч (Хорватия) — Это апдейт к рассказу об отдыхе в хорватской Истрии летом 2005 года.
Про Пореч ничего писать не буду — отзывов полно. [...]
- 2009: Врсар (Хорватия) — Это апдейт к рассказу об отдыхе в хорватской Истрии летом 2005 года.
Погоду заела совесть, было солнечно и жарко. Провели день [...]
- 2009: Пула (Хорватия) — Это апдейт к рассказу об отдыхе в хорватской Истрии летом 2005 года.
Пула встретила нас дождем близ Арены (прошли кругом, вполне [...]






Недавние комментарии