Новые технологии распределенного хранения и обработки больших массивов даннных

В статье рассматриваются новые технологии, позволяющие организовать распределенное хранение и параллельную обработку больших объемов
данных в крупномасштабных кластерных системах. Речь идет о петабайтах данных, для хранения и обработки которых необходимы значительные вычислительные ресурсы. В качестве таких ресурсов рассматриваются кластерные системы, состоящие из тысяч серверов. В подобных распределенных системах остро стоят вопросы обеспечения отказоустойчивости и бесперебойного функционирования сервисов хранения и
обработки данных. Другой важной проблемой является создание высокоуровневой модели программирования процессов обработки данных на подобных системах, скрывающей от пользователя детали распределения данных и планирования вычислений в ненадежной распределенной среде. В статье приводится описание оригинальных технологий, нацеленных на решение указанных проблем и уже применяемых в крупнейших информационных системах. Поскольку большинство подобных технологий являются закрытыми коммерческими разработками, особое
внимание уделено описанию создаваемых в настоящее время открытых (open source) аналогов данных технологий.

Отличия алгоритма дерева решений от ассоциативных правил в задачах классификации

Алгоритм ассоциативных правил предназначен для выявления в данных зависимостей типа A -> B, где A и B представляют собой наборы пар атрибут=значение. Правило должно быть:

  • значимым, т.е. наборы A и B должны достаточно часто совместно встречаться в исходных данных;
  • точным, т.е. доля записей, содержащих набор B в записях, содержащих набор A, должна быть высока;
  • интересным, т.е. наличие набора A в записи должно увеличивать вероятность наличия набора B в этой же записи.

Модифицированный древовидный алгоритм Байеса для задач классификации

 В статье описана существенно усовершенствованная математическая модель так называемого "наивного" алгоритма Байеса - "Модифицированный древовидный алгоритм Байеса".

Искусственный интеллект

Иску́сственный интелле́кт (англ. Artificial intelligence, AI) — раздел информатики, занимающийся формализацией задач, напоминающих задачи, выполняемые человеком. При этом в большинстве случаев заранее неизвестен алгоритм решения задачи. В некотором роде обособленно стоят задачи распознавания образов, которые традиционно включают в круг задач искусственного интеллекта.