YoVDO

Введение в информационный поиск

Offered By: Moscow Institute of Physics and Technology via Coursera

Tags

Humanities Courses Machine Learning Courses Information Retrieval Courses

Course Description

Overview

Данный курс был создан сотрудниками "Mail.Ru Group". При разработке заданий упор делался на знания и опыт, которые используются сотрудниками на практике ежедневно при проектировании продуктов, которыми пользуются миллионы людей.
В современном мире невозможно представить человека, который, заходя в интернет, не пользуется поисковыми системами. Google, Yandex, Mail.ru и другие интернет-гиганты решают задачи нахождения информации в интернете и удовлетворения информационных потребностей пользователя. В этом курсе мы расскажем вам, как устроена поисковая система изнутри, покажем, какие приемы обработки естественного языка и машинного обучения используются при построении поискового индекса и ответе на запросы. Также мы обсудим тему объективной оценки качества поисковой системы. В результате слушатели курса смогут опробовать все вышеперечисленные техники на практике и построить работающую модель поисковой системы.

Syllabus

  • Введение, булев поиск
    • Этим занятием открывается цикл лекций, посвященных информационному поиску. Мы начнем с небольшого экскурса в историю возникновения вэб-поиска, изучим базовые понятия и узнаем, как можно классифицировать разные поисковые системы. Базовый вид поиска – это булев поиск. Мы рассмотрим, как он устроен и как можно исполнять запросы пользователей к такому поиску. Но недостаточно использовать оригинальный текст – чтобы учесть разные морфологические формы одного и того же слова, применяются различные этапы нормализации текста. Это применимо не только к документам, но и к запросам. Отдельно стоит рассмотреть такие важные усовершенствования булева поиска, как координатный поиск, которые учитывает, где именно в тексте находятся конкретные слова, и обработку полноценных фразовых запросов.
  • Поисковый индекс
    • В основе текстового информационного поиска лежит концепция обратного индекса. Эта неделя посвящена разным методам его построения, расширения за счет дополнительной информации и улучшения работы с ним благодаря сжатию словаря и ускорению работы с обратным индексом.
  • Нечёткий поиск
    • Эта неделя посвящена двум большим темам, связанным между собой: исправление опечаток в запросах пользователей и выполнение неточных запросов, в которых пользователь сознательно скрывает часть слова за специальным знаком – "*".
  • Ранжирование
    • Выполнение запросов пользователей на большом корпусе документов часто приводит к тому, что запросу удовлетворяет слишком много документов. Для того, чтобы пользователю не пришлось просматривать все найденные документы, поисковая система может отобрать из них только лучшие и показать пользователю в порядке "полезности". Этим занимается ранжирование, о котором и пойдет речь в этой неделе.
  • Ссылочное и поведенческое ранжирование
    • Эта неделя посвящена ссылочному и поведенческому ранжированию. Эти виды ранжирования опираются на связь между разными документами и информацию о поведении пользователя.
  • Оценка качества
    • В этой неделе мы поговорим о том, зачем нужно оценивать качество поиска и как это можно сделать.

Taught by

Сергукова Юлия Михайловна and Плеханов Михаил Владимирович

Tags

Related Courses

4.0 Shades of Digitalisation for the Chemical and Process Industries
University of Padova via FutureLearn
A Day in the Life of a Data Engineer
Amazon Web Services via AWS Skill Builder
FinTech for Finance and Business Leaders
ACCA via edX
Accounting Data Analytics
University of Illinois at Urbana-Champaign via Coursera
Accounting Data Analytics
Coursera