Разбираем сайты по полочкам делая их посещамыми и продающими!
Распродажа
SEO с нуля!
+7 (953) 276-70-95
info.seoap@gmail.com
Перезвонить
  • Услуги
    • Обучение SEO
    • Разовая SEO оптимизация
      • Разовая SEO-оптимизация интернет-магазина
      • SEO-оптимизация каталогов и справочников
      • SEO-оптимизация молодых сайтов
      • SEO-оптимизация досок объявлений
      • SEO-оптимизация портала
      • SEO-оптимизация бизнес сайтов
      • SEO-оптимизация блогов
      • SEO-оптимизация информационных сайтов
      • Разовая SEO-оптимизация Landing Page
    • SEO продвижение сайтов
      • SEO продвижение интернет-магазина
      • SEO продвижение региональных сайтов
      • SEO-продвижение молодого сайта
      • SEO-продвижение корпоративных сайтов
    • Продвижение сайта по позициям в ТОП-10
    • Эффективный аудит сайта
      • SEO-аудит Landing Page
      • SEO-аудит бизнес-сайта
      • SEO-аудит блогов
      • SEO-аудит досок объявлений
      • SEO-аудит порталов
      • SEO-аудит сайтов каталогов
      • Анализ сайтов конкурентов
      • Аудит интернет-магазина
      • Аудит информационных сайтов
      • Аудит молодого сайта
      • Аудит сайта визитки
      • Аудит сайта компании
    • Оптимизация рекламных компаний
      • Настройка Google Adwords для сайта
      • Настройка яндекс директ для сайта
    • Соберём семантику для сайта
    • Копирайтинг для интернет-магазинов и сайтов услуг
      • Заказать слоган
      • Контентный план сайта
      • Наполнение сайтов интернет магазинов
      • Наполнения сайтов услуг контентом
    • Создание сайтов с оптимизацией
      • Дизайн сайта под SEO
      • Создание скетча и общей структуры сайта (прототипирование)
      • Сайты для заводов, производств
      • Сайта для малого бизнеса
      • Сопровождение и поддержка сайтов
    • Ускорение сайтов
    • Контроль репутации сайта
    • Тестирование сайта на ошибки
    • Администрирование сайтов
  • Акции «SEO-точка»
  • Портфолио
    • Сайты клиентов, которые мы создали
    • Сайты, которые мы продвинули
    • Примеры работ по оптимизации
  • Блог
    • Аналитика
    • Внутренняя оптимизация
    • Внешняя оптимизация
    • Контекст
    • Мифы продвижения
    • Обучение
    • Статьи
  • Сервисы
  • Контакты
    • Вакансии
    • Об авторе
    • Отзывы
    • FAQ
    • Кто с нами работает

Инструкция по расчету TF-IDF

  1. Главная
  2. Обучение
  3. Инструкция по расчету TF-IDF
Posted on 01/07/2016
3 комментария

расчету TF-IDF
 
Задача по расчету TF-IDF документов.

Отранжировать по TF-IDF 5 документов по запросам:

  • пластиковые окна
  • окна
  • окна пвх
  • krauss

Дано

Номер документа Содержание документа
1 Мы постоянно модернизируем свои цеха, чтобы иметь возможность предлагать нашим клиентам разнообразные пластиковые окна.
2 Мы предлагаем полный цикл услуг, включающий изготовление окон ПВХ
3 Оконные и дверные профили KRAUSS ориентированы как на обычные условия использования.
4 Компания «Строй Мастер» — официальный переработчик немецкого профиля REHAU — осуществляет изготовление и продажу оконных и дверных пластиковых конструкций.
5 Окна ПВХ Kaleva (иногда их называют «пластиковые стеклопакеты») изготавливаются из высококачественных материалов. окна окна окна.

 

Решение

Решение данной задачи сводится к следующим действиям:

  • Посчитать общее количество слов в каждом документе
  • Посчитать количество употреблений вхождений каждого слова из списка запросов в каждом из текстов
  • Посчитать значения TF
  • Посчитать значения DF
  • Посчитать значения IDF
  • Посчитать вес ключевых слов

Рассмотрим подробно каждый из пунктов

 

  • Посчитать общее количество слов

 

Подсчет общего количества слов производится простым сложением количества слов в предложениях, кроме знаков препинания, союзов, предлогов и других частей речи, которые поисковая система отбрасывает при обработке запросов.

 

Пример слов, которые учитывать не нужно: «как», «с», «со», «и», «или» и т.д. и т.п.

 

Как производился подсчет (считали количество слов, выделенных зеленым):

 

Номер документа Содержание документа Итого слов
1 Мы постоянно модернизируем свои цеха, чтобы иметь возможность предлагать нашим клиентам разнообразные пластиковые окна. 14
2 Мы предлагаем полный цикл услуг, включающий изготовление окон ПВХ 9
3 Оконные и дверные профили KRAUSS ориентированы как на обычные условия использования. 8
4 Компания «Строй Мастер» — официальный переработчик немецкого профиля REHAU — осуществляет изготовление и продажу оконных и дверных пластиковых конструкций. 15
5 Окна ПВХ Kaleva (иногда их называют «пластиковые стеклопакеты») изготавливаются из высококачественных материалов. окна окна окна. 13

 

 

  • Посчитать количество употреблений вхождений каждого слова из списка запросов в каждом из текстов

 

 

Несмотря на то, что данный пункт звучит громоздко и непонятно – сделать его проще простого.

 

Для начала вспомним наш список запросов:

    • пластиковые окна
    • окна
    • окна пвх
    • krauss

Разобьем запросы на слова и выделим те, которые являются уникальными по отношению ко всем запросам:

    • пластиковые
    • окна
    • окна
    • окна
    • пвх
    • krauss

 

Получился следующий список уникальных слов:

 

  • пластиковые

 

  • окна
  • пвх
  • krauss

 

 

Если Вам не понятно почему «окна» выделили один раз – когда мы анализировали первый раз слова «окна», то до этого оно у нас не встречалось и поэтому оно является уникальным. Последующие повторения уже не являются уникальными.

  • Теперь нам нужно посчитать сколько раз каждое из уникальных слов и его словоформ встречается в каждом документе.

 

Что такое словоформа? Это однокоренное слово в той же части речи, что и исходное слово.

Например, попробуем найти словоформы для слова «окна». «Окна» — существительное. Однокоренными словами существительными будут «окно», «окон», «окнам» и т.д. и т.п. А вот слово «оконные» уже не будет являться словоформой, т.к. это уже прилагательные. Не забывайте этот важный момент.

 

Давайте подсчитаем сколько раз каждое из уникальных слов и его словоформ встречается в каждом из текстов (регистр значения не имеет).

 

Напоминаю, что список уникальных слов с предыдущего этапа у нас

 

 

  • пластиковые

 

  • окна
  • пвх
  • krauss

 

 

 

Слово «пластиковые» и его словоформы (вхождения выделены зеленым)

Номер документа Содержание документа Вхождений
1 Мы постоянно модернизируем свои цеха, чтобы иметь возможность предлагать нашим клиентам разнообразные пластиковые окна. 1
2 Мы предлагаем полный цикл услуг, включающий изготовление окон ПВХ 0
3 Оконные и дверные профили KRAUSS ориентированы как на обычные условия использования. 0
4 Компания «Строй Мастер» — официальный переработчик немецкого профиля REHAU — осуществляет изготовление и продажу оконных и дверных пластиковых конструкций. 1
5 Окна ПВХ Kaleva (иногда их называют «пластиковые стеклопакеты») изготавливаются из высококачественных материалов. окна окна окна. 1
Итого: 3

 

Слово «окна» и его словоформы (вхождения выделены синим цветом)

Номер документа Содержание документа Вхождений
1 Мы постоянно модернизируем свои цеха, чтобы иметь возможность предлагать нашим клиентам разнообразные пластиковые окна. 1
2 Мы предлагаем полный цикл услуг, включающий изготовление окон ПВХ 1
3 Оконные и дверные профили KRAUSS ориентированы как на обычные условия использования. 0
4 Компания «Строй Мастер» — официальный переработчик немецкого профиля REHAU — осуществляет изготовление и продажу оконных и дверных пластиковых конструкций. 0
5 Окна ПВХ Kaleva (иногда их называют «пластиковые стеклопакеты») изготавливаются из высококачественных материалов. окна окна окна. 4
Итого: 6

Важно! Обратите внимание, что мы не посчитали вхождение «Оконные» из 3 документа, т.к. это слово не подходит под определение словоформы по причине того, что это другая часть речи

 

Слово «пвх» и его словоформы (вхождения выделены красным цветом)

Номер документа Содержание документа Вхождений
1 Мы постоянно модернизируем свои цеха, чтобы иметь возможность предлагать нашим клиентам разнообразные пластиковые окна. 0
2 Мы предлагаем полный цикл услуг, включающий изготовление окон ПВХ 1
3 Оконные и дверные профили KRAUSS ориентированы как на обычные условия использования. 0
4 Компания «Строй Мастер» — официальный переработчик немецкого профиля REHAU — осуществляет изготовление и продажу оконных и дверных пластиковых конструкций. 0
5 Окна ПВХ Kaleva (иногда их называют «пластиковые стеклопакеты») изготавливаются из высококачественных материалов. окна окна окна. 1
Итого: 2

 

Слово «Krauss» и его словоформы (вхождения выделены оранжевым цветом)

Номер документа Содержание документа Вхождений
1 Мы постоянно модернизируем свои цеха, чтобы иметь возможность предлагать нашим клиентам разнообразные пластиковые окна. 0
2 Мы предлагаем полный цикл услуг, включающий изготовление окон ПВХ 0
3 Оконные и дверные профили KRAUSS ориентированы как на обычные условия использования. 1
4 Компания «Строй Мастер» — официальный переработчик немецкого профиля REHAU — осуществляет изготовление и продажу оконных и дверных пластиковых конструкций. 0
5 Окна ПВХ Kaleva (иногда их называют «пластиковые стеклопакеты») изготавливаются из высококачественных материалов. окна окна окна. 0
Итого: 1

 

 

  • Посчитать TF

 

TF – количество употребления ключевого термина по отношению ко всем словам в документе

Т.е. TF считается для каждого из уникальных слов («пластиковые», «окна», «пвх», «kraus») в каждом документе

Для того, чтобы посчитать TF по уникальному слову нам необходимо разделить количество употреблений этого слова (считали в пункте 2) на общее количество слов (считали в пункте 1)

Несколько примеров расчетов:

  • Надо определить TF слова «пластиковые» в 1 документе (номер документа определяется по порядку строк со значениями). Для этого нам нужно разделить 1 (количество вхождений и словоформ «пластиковые») на 14 (общее количество слов в 3 документе), после чего мы получим значение 0,071429
  1. Надо определить TF слова «пвх» в 3 документе. Делим 0 (количество вхождений и словоформ «пвх») на 8 (общее количество слов в документе 3), после чего мы получим значение 0
  1. Надо определить TF слова «окна» в 5 документе. Делим 4 (количество вхождений и словоформ «окна») на 13 (общее количество слов в документе), после чего мы получим значение 0,307692308

Все получившиеся значения TF вы можете посмотреть в файле «Расчеты.xlsx»

 

  • Посчитать DF

 

DF – это отношения количества документов, в котором встречается ключевой термин к общему количеству документов.

Общее количество документов у нас известно – изначально оно составляло 5 штук.

Теперь разберем как считать количество документов, в котором встречается ключевой термин.

  • Например, слово «krauss» у нас встречается в 1 документе из 5, соответственно расчет будет 1/5= 0.2
  • Слово «пвх» встречается в 2 документах из 5, соответственно расчет будет 2/5 = 0.4
  • А вот слово «окна» встречается 1 раз в первом документе, 1 раз во втором документе и 4 раза в 5 документе. НО! Количество документов, в которых встречается ключевой термин равняется 3 (1, 2 и 5 документы), а не общему количеству вхождений ключевых терминов.

На этом моменте ошибаются многие – не будьте в их числе

Все получившиеся значения DF вы можете посмотреть в файле «Расчеты.xlsx»

 

  • Посчитать IDF

 

IDF считается для каждого ключевого термина по формуле «1/DF»

Например, DF ключевого термина «пластиковые» 0,6. Для того, чтобы посчитать IDF мы должны 1 разделить на 0,6 и записать получившийся результат (1,666666667).

Все получившиеся значения IDF вы можете посмотреть в файле «Расчеты.xlsx»

 

 

  • Посчитать TF*IDF

 

TF*IDF считается для каждого ключевого термина в документе путем умножения TF ключевого термина на его IDF

Например, для термина «пластиковые» первого документа TF*IDF будет равен произведению 0,071428571 (TF ключевого термина «пластиковые» 1 документа) на 1,666666667 (IDF слова «пластиковые») в результате чего получится значение 0,12.

Все получившиеся значения TF*IDF вы можете посмотреть в файле «Расчеты.xlsx»

 

 

  • Посчитать вес ключевых слов

 

Теперь нам осталось посчитать вес терминов и в соответствии с ним отранжировать сайты.

  • Вес ключевых слов считается путем сложения результатов TF*IDF, входящих в него терминов.

Например, чтобы посчитать вес ключевого слова «пластиковые окна» для 5 документа сложим TF*IDF термина «пластиковые» (0,13) и TF*IDF термина «окна» (0,51) в результате чего получим итоговый вес ключевой фразы, равный 0,64 (0,13+0,51)

  • После того, как были подсчитаны веса всех ключевых слов, осуществляется ранжирование документов, где порядок позиций определяется от больших значений к меньшим, т.е., например, документ с весом ключевой фразы 0,5 будет ранжироваться выше документа с весом ключевой фразы 0,45.

Если несколько документов имеют один и тот же вес для ключевой фразы, то ранжирование происходит по порядковому номеру документа

 

Post Views: 3 503

Это уникальная SEO-запись.

Предыдущая запись
Стоп-слова для написания текста, памятка копирайтера
Следующая запись
Уровни (рекламной) монетизации блога. Уровень второй: текстовые ссылки и баннеры

3 комментария. Оставить новый

  • Александр
    25/09/2019 22:58

    Спасибо! Было интересно попробовать всё это вручную пересчитать )

    Ответить
    • zullbatol
      30/09/2019 07:47

      Да вы батенька псих… Есть ексель, можно на php написать нужный функционал.

      Ответить
  • Виталий
    11/09/2020 11:41

    По сравнению с тем, как на просторах нета объясняют эту методику, это одна из самых практичных статей. Спасибо

    Ответить

Добавить комментарий Отменить ответ

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Заполните поле
Заполните поле
Пожалуйста, введите корректный адрес email.

думай как оптимизатор (сергей бондарев)

Свежие записи

  • Кейс SEO-продвижения магазина брендовой одежды «Голд Мода» (ассортимент — реплики) 08/02/2021
  • Кейс SEO-продвижение игровых сайтов по Европе 28/01/2021
  • Как Яндекс торгует местами в выдаче 01/01/2021
  • Оптимизация сообщества Вконтакте: как вывести статью из паблика в ТОП-10 Яндекса 31/12/2020
  • Как правильно составлять заголовки и тексты страниц сайтов: общий алгоритм и рекомендации 29/12/2020

Рубрики

  • Аналитика (15)
  • Внешняя оптимизация (67)
  • Внутренняя оптимизация (49)
  • Контекст (9)
  • Мифы продвижения (9)
  • Обучение (47)
  • Оптимизация CMS (2)
  • Портфолио (48)
  • Статьи (42)
seo-ap.ru logo

Продвижение и Seo-оптимизация сайтов под Яндекс и Google от Сергея Бондарева и партнёров

  • Контакты
  • FAQ
  • Акции «SEO-точка»
  • Портфолио
  • Блог
  • Услуги
Контакты
+7 (953) 276-70-95
info.seoap@gmail.com

Социальные профили

Facebook
Vkontakte
Instagram
YouTube
© 2018. Все права защищены
Seo-AP — оптимизация и продвижение сайтов.
Внимание наш сайт использует технологии cookies для предоставления наиболее качественной и удобной информации для вас. Используя сайт, вы соглашаетесь с данной технологией. Политика конфиденциальности