Інтелектуальний аналіз даних за допомогою програмного пакета WEKA: Частина 1: Введення. регресійний аналіз

Серія контенту:
Цей контент є частиною серії: Інтелектуальний аналіз даних за допомогою програмного пакета WEKA
Що таке інтелектуальний аналіз даних?
WEKA
Малюнок 1. Стартове вікно WEKA
Малюнок 2. Вікно WEKA Explorer
регресійний аналіз
Таблиця 1. Регресійна модель оцінки вартості будинку
Створення набору даних для завантаження в WEKA
Лістинг 1. Файл даних для завантаження в WEKA
Завантаження даних в WEKA
Малюнок 3. Вікно WEKA Explorer з завантаженими даними про будинки
Створення регресійній моделі в WEKA
Малюнок 4. Модель лінійного регресійного аналізу WEKA
Малюнок 5. Регресійна модель WEKA для розрахунку вартості будинку
Лістинг 2. Готова модель регресійного аналізу
Лістинг 3. Розрахунок вартості будинку на базі готової моделі
Зауваження для фахівців із статистики
Лістинг 4. Модель регресійного аналізу для визначення MPG
Лістинг 5. Обчислення показника MPG
Висновок
Ресурси для скачування

Інтелектуальний аналіз даних з допомогою програмного пакета WEKA

Серія контенту:

Цей контент є частиною # з серії # статей: Інтелектуальний аналіз даних за допомогою програмного пакета WEKA

https://www.ibm.com/developerworks/ru/views/global/libraryview.jsp?series_title_by=Интеллектуальный+анализ+данных+с+помощью+программного+пакета+weka

Слідкуйте за виходом нових статей цієї серії.

Цей контент є частиною серії: Інтелектуальний аналіз даних за допомогою програмного пакета WEKA

Слідкуйте за виходом нових статей цій серії.

Що ж таке інтелектуальний аналіз даних? Цілком можливо, ви вже цікавилися цією питанням, оскільки в сфері сучасних технологій питання аналізу даних користуються зростаючою популярністю. Наприклад, ви десь почули або прочитали, що такі великі компанії як Google і Yahoo! збирають мільярди різних показників про своїх користувачів, і у вас може виникнути цілком закономірне питання: як же ці компанії планують використовувати отриману інформацію? Ще один приклад, який, можливо, вам здивує - компанія Walmart, яка використовує передові технології для аналізу даних і успішно застосовує результати цього аналізу для розвитку бізнесу. Практично кожна сучасна компанія використовує інтелектуальний аналіз даних, а ті з них, які ігнорують подібні технології, незабаром можуть опинитися в дуже невигідному становищі.

Отже, як вам і вашій компанії приєднатися до тих, хто успішно використовує інтелектуальний аналіз даних в бізнесі?

У цій статті ми сподіваємося відповісти на питання, що виникають при першому знайомстві з технологіями інтелектуального аналізу даних. Ми розповімо про продукт Waikato Environment for Knowledge Analysis (WEKA), який є вільно поширюваним програмним пакетом з відкритим вихідним кодом для аналізу даних і який допоможе вам ефективно використовувати інформацію про ваші користувачів, клієнтів і компанії для підвищення прибутковості бізнесу. Ви переконаєтеся, що результативний аналіз даних - це зовсім не так складно, як ви могли б припустити.

Крім цього, в даній статті розглядається один з методів аналізу даних, а саме регресійний аналіз, який дозволяє на базі наявних показників розрахувати передбачуване значення невідомих даних. Регресійний аналіз вважається найбільш простим методом інтелектуального аналізу даних. На самому базовому рівні ви, швидше за все, вже користувалися аналогічним підходом при роботі з якою-небудь з найбільш поширених на ринку програм для роботи з електронними таблицями (безперечно, функціональність WEKA дозволяє проводити складніший аналіз даних, ніж звичайні електронних таблиць). У наступних статтях ми торкнемося інші методи інтелектуального аналізу даних, включаючи кластеризації, метод найближчих сусідів і класифікаційні дерева (не лякайтеся, якщо ці терміни для вас поки порожній звук, ми детально розглянемо їх в наступних статтях цієї серії).

Що таке інтелектуальний аналіз даних?

За своєю суттю, інтелектуальний аналіз даних - це перетворення великих обсягів «сирих» даних в мають певний сенс і практично корисні схеми, структури і правила. Аналіз даних може бути розділений на два види - прямий (прогнозування) та непрямий (класифікація і кластеризація). Завдання прямого аналізу - прогноз конкретних показників, наприклад, прогноз продажної вартості будинку на базі інформації про ціни на будинки в даному районі.

Завдання непрямого аналізу - створення груп даних або пошук певних структур або схем в існуючому наборі даних, наприклад, визначення демографічної групи типу «Soccer Mom» (мами юних футболістів). Кожна перепис населення США має на увазі інтелектуальний аналіз даних, так як уряд прагне отримати дані про кожного жителя і перетворити їх в інформацію, придатний для подальшого практичного використання.

Інтелектуальний аналіз даних в тому сенсі, в якому ми розглядаємо його у даній статті, виник в середині 90-г років минулого століття, коли розвиток комп'ютерних технологій вийшло на досить високий рівень, а вартість обчислювальних потужностей і систем зберігання даних знизилася настільки, що компанії змогли дозволити собі самостійно проводити аналіз даних, не вдаючись до послуг великих обчислювальних центрів.

Крім того, слід зазначити, що термін «інтелектуальний аналіз даних", або data mining, є всеосяжним і включає в себе безліч різних підходів і методів для дослідження і перетворення даних. Завдання даної серії статей - дати загальне уявлення про можливості інтелектуального аналізу даних. Експерти в цій галузі мають, як правило, докторським ступенем і величезним (від 10 до 30 років) досвідом практичної роботи з даними. Однак з цього не випливає, що інтелектуальний аналіз даних можуть дозволити собі лише великі компанії.

Ми сподіваємося розвіяти більшість оман щодо аналізу даних. Безумовно, методи інтелектуального аналізу даних не такі прості, що виконання якої-небудь функції на вибіркою даних в електронних таблицях, проте вони і не настільки складні, щоб їх не можна було використовувати самостійно. Це прекрасний приклад парадигми 80/20, або навіть 90/10. Ви можете створити модель інтелектуального аналізу даних, що працює більш ніж на 90%, володіючи всього лише 10% знання і досвіду експерта в сфері аналізу даних. Щоб збільшити ефективність на решту 10% і розробити досконалу аналітичну модель, швидше за все, доведеться збільшити час роботи на 90% і витратити ще приблизно 20 років. Так що якщо ви не плануєте зробити запаморочливу кар'єру в області інтелектуального аналізу даних, то «досить добре» - це той результат, який вам потрібен. При цьому «досить хороший» результат може виявитися значно краще, ніж те, чим ви маєте в своєму розпорядженні зараз.

Основна мета інтелектуального аналізу даних полягає в тому, щоб створити модель, що дозволяє ефективно інтерпретувати і використовувати ті дані, які у вас є зараз, і ті дані, які ви отримаєте в майбутньому. Оскільки аналіз даних включає в себе ціле безліч методів, то основний етап створення моделі даних - це вибір методу аналізу, що використовуються в цій моделі. Для правильного вибору методу потрібно практичний досвід і деякий керівництво. Далі модель потрібно доопрацювати, щоб зробити її більш ефективною. Познайомившись з матеріалами цієї серії статей, ви зможете визначити, який метод найбільш підходить для вашого набору даних, і які модифікації будуть потрібні для підвищення точності моделі. Ви зможете самостійно створити досить ефективну модель для інтелектуального аналізу ваших даних.

WEKA

Інтелектуальний аналіз даних не є виключною прерогативою великих компаній і дорогого програмного забезпечення. Існує програмний продукт, який називається WEKA (див. ресурси ) І реалізує практично ті самі функції, що і дорогі програмні комплекси. WEKA - продукт університету Уайкато (Нова Зеландія), який вперше був випущений в його сучасному вигляді в 1997 році. WEKA поширюється по ліцензії GNU General Public License (GPL). Це ПО написано на мові Java ™ та забезпечує графічний користувальницький інтерфейс для роботи з файлами даних і генерації візуальних результатів (у вигляді таблиць та графіків). Крім того, ви можете інтегрувати WEKA, як і будь-яку іншу бібліотеку, в свої власні додатки, наприклад, для автоматизації аналізу даних на стороні сервера, використовуючи стандартний API.

Тепер пора перейти від слів до справи і встановити WEKA. WEKA використовує Java, так що коли на вашому комп'ютері немає JRE, виберіть для установки версію WEKA, що включає в себе JRE.

Малюнок 1. Стартове вікно WEKA

Інтелектуальний аналіз даних з допомогою програмного пакета WEKA Серія контенту: Цей контент є частиною # з серії # статей: Інтелектуальний аналіз даних за допомогою програмного пакета WEKA https://www

При запуску WEKA, пакет пропонує вам на вибір 4 графічних інтерфейсу для роботи з WEKA і вашими даними. Для всіх прикладів, розглянутих у даній статті, використовується опція Explorer. Її функціональності цілком достатньо для вирішення наших завдань.

Малюнок 2. Вікно WEKA Explorer

Тепер, коли ви освоїли установку і запуск WEKA, перейдемо до розгляду першого способу інтелектуального аналізу даних: регресії

регресійний аналіз

Метод регресійного аналізу є найпростішим і, мабуть, найменш ефективним методом інтелектуального аналізу даних (дивно, як часто ці якості супроводжують один одного). Найпростіша модель аналізу використовує один вхідний (незалежний) параметр і один результуючий (залежний) параметр (прикладами такої моделі є точкові діаграми Excel і аналогічні їм XYDiagram в OpenOffice.org). Безумовно, модель можна ускладнити, додавши кілька десятків вхідних параметрів, але в будь-якому випадку загальний підхід буде один і той же: на підставі декількох незалежних змінних визначається один залежний результат. Таким чином, модель регресійного аналізу використовується для прогнозування значення однієї залежної змінної, виходячи з відомих значень декількох незалежних властивостей.

Напевно, кожен з нас хоча б раз стикався з регресійній моделі, а може бути, і проводив в розумі самостійний регресійний анализ. Найбільш очевидний приклад - визначення вартості будинку. Ціна на будинок (залежна змінна) визначається декількома незалежними параметрами: яка площа будинку і розмір ділянки, чи використовується в оформленні кухні гранітні плити, яка якість і термін служби сантехніки і так далі. Так що, якщо вам траплялося коли-небудь продавати або купувати будинок, то, швидше за все, ви використовували регресійний аналіз для визначення його ціни. Ви оцінювали параметри схожих будинків в цьому ж районі і ціну, по якій ці вдома були продані (тобто створювали модель), а потім підставляли параметри вашого будинку в отриману залежність і розраховували передбачувану вартість вашого будинку.

Давайте скористаємося моделлю регресійного аналізу для визначення ціни дому та розберемо конкретний приклад. У таблиці внизу вказані фактичні параметри будинків, виставлені на продаж в моєму районі. На основі цих даних я спробую оцінити вартість мого будинку (і скористаюся цими результатами, щоб опротестувати пред'явлену мені суму податку на нерухомість).

Таблиця 1. Регресійна модель оцінки вартості будинку

Площа будинку (кв.футов) Розмір ділянки Кількість спалень Гранітна обробка на кухні Сучасне сантехнічне обладнання? Продажна ціна 3529 9191 6 0 0 $ 205,000 3247 10061 5 1 1 $ 224,900 4032 10150 5 0 1 $ 197,900 2397 14156 4 1 0 $ 189,900 2200 9600 4 0 1 `$ 195,000 3536 19994 6 1 1 $ 325,000 2983 9365 5 0 1 $ 230,000 3198 9669 5 1 1 ????

Гарна новина (або погана новина, в залежності від вашої точки зору) полягає в тому, що розглянута нами модель дає лише саме загальне, досить поверхневе, уявлення про метод регресійного аналізу. Як правило, загальний курс з вивчення регресійного аналізу в вищих навчальних закладах займає цілий семестр і містить досить докладну інформацію по розробці і використанню регресійних моделей, без якої ви цілком могли б обійтися. Проте, нашого поверхневого розгляду цілком достатньо для того, щоб зрозуміти основні принципи і створити модель регресійного аналізу за допомогою WEKA. Якщо ви ще не втратили інтерес до методу регресійного аналізу даних, скористайтеся своєю улюбленою пошуковою системою, щоб знайти визначення наступні термінів: метод найменших квадратів, середня дисперсія (гетероскедостічность), нормальний розподіл, тести Уайта, випробування Лілліефорса, коефіцієнт детермінації R-квадрат й р -значення (категоріальна незалежна змінна).

Створення набору даних для завантаження в WEKA

Для того щоб завантажити дані в WEKA, їх слід перетворити в формат, зрозумілий цього пакета програмного забезпечення. Найбільш підходящим форматом для завантаження даних в WEKA є формат Attribute-Relation File Format (ARFF), який спочатку визначає тип даних при завантаженні, а потім вказує власне дані. У файлі формату ARFF ви вказуєте назву і тип даних для кожного стовпця таблиці, а потім власне дані по рядках. У моделях регресійного аналізу використовуються лише два типи даних: NUMERIC і DATE. Після того, як ви описали всі стовпці таблиці, ви додаєте дані по рядках, використовуючи як роздільник кому. Нижче наведено фото ARFF з даними про ціни на будинки, які ми будемо використовувати для побудови даної моделі. Зверніть увагу, що в списку відсутній рядок з даними мого будинку. Зараз ми створюємо регресійну модель на базі відомих параметрів і, отже, не можемо включити в нього параметри мого будинку, оскільки ціна його невідома.

Лістинг 1. Файл даних для завантаження в WEKA

@RELATION house @ATTRIBUTE houseSize NUMERIC @ATTRIBUTE lotSize NUMERIC @ATTRIBUTE bedrooms NUMERIC @ATTRIBUTE granite NUMERIC @ATTRIBUTE bathroom NUMERIC @ATTRIBUTE sellingPrice NUMERIC @DATA 3529,9191,6,0,0,205000 3247,10061,5,1,1, 224900 4032,10150,5,0,1,197900 2397,14156,4,1,0,189900 2200,9600,4,0,1,195000 3536,19994,6,1,1,325000 2983,9365,5 , 0,1,230000

Завантаження даних в WEKA

Тепер, коли файл з даними готовий, його потрібно завантажити в WEKA. Запустіть WEKA і виберіть опцію Explorer. В результаті відкриється закладка Preprocess вікна Explorer. Клацніть на кнопці Open File і виберіть створений вами ARFF-файл. Вікно WEKA Explorer з завантаженими даними про будинках показано на малюнку 3.

Малюнок 3. Вікно WEKA Explorer з завантаженими даними про будинки

У цьому вікні ви можете перевірити дані, на підставі яких ви збираєтеся будувати модель. У лівій частині вікна Explorer показані параметри об'єктів (Attributes), які відповідають заголовкам стовпців нашої початкової таблиці, а також вказано кількість об'єктів (Instances), тобто строк таблиці. Якщо ви клацніть мишкою на одному з заголовків стовпців, то в правій панелі буде виведена повна інформація про набір даних в даному стовпці. Наприклад, якщо ми виберемо стовпець houseSize в лівій панелі (він обраний за замовчуванням), то в правій панелі відобразиться додаткова статистична інформація з цього стовпцю. Буде показано максимальне значення в стовпці (4032 кв.футов) і мінімальне значення (2200 кв.футов). Крім того, буде підраховано середнє значення (3131 кв.фут) і стандартне відхилення (655 кв.футов) (стандартне відхилення - статистичний показник розсіювання значень випадкової величини). Нарешті, тут же вам пропонується можливість візуального аналізу даних (кнопка Visualize All). Оскільки в нашій таблиці даних не так багато, то їх візуальне відображення не дає такої наочної аналітичної картини, як у випадку використання сотень або тисяч показників.

Давайте перейдемо від розгляду даних до створення моделі і визначимо, нарешті, вартість мого будинку.

Створення регресійній моделі в WEKA

Для того щоб створити модель, відкрийте закладку Classify. В якості першого кроку, нам треба вибрати тип моделі для аналізу, щоб вказати WEKA, яким чином ми хочемо аналізувати наші дані, і яку модель побудувати:

Клацніть на копанні Choose і розгорніть меню functions.
Виберіть опцію LinearRegression.

Таким чином, ми вказали WEKA, що ми хочемо створити модель регресійного аналізу. Як ви помітили, меню включає ціле безліч моделей. Безліч! Це ще раз підкреслює факт нашого вельми поверхневого знайомства з областю інтелектуального аналізу даних. Зверніть увагу: в меню включена опція SimpleLinearRegression, проте ми не використовуємо її, оскільки цей тип моделі визначає значення залежної змінної за значеннями одного незалежного параметра, а у нас їх цілих шість. Якщо ви вибрали правильну модель, то вікно WEKA Explorer має виглядати так, як показано на малюнку 4.

Малюнок 4. Модель лінійного регресійного аналізу WEKA

Чи можна побудувати таку модель за допомогою електронних таблиць?

Коротка відповідь: ні. Довгий відповідь: власне кажучи, можна. Більшість популярних електронних таблиць, на відміну від WEKA, не підтримують готові методи створення регресійних лінійних моделей, що використовують декілька незалежних змінних. Тим не менш, ви без особливих проблем зможете створити просту лінійну модель (аналог Simple Linear Regression в WEKA) на базі однієї незалежної змінної. Далі, якщо ви впевнені в своїх силах і знаннях, ви можете створити регресійну модель з декількома незалежними параметрами, однак це буде не так просто і, тим більше, не так очевидно, як створення моделі засобами WEKA. Відео-приклад створення регресійній моделі для Microsoft® Excel® ви знайдете в розділі ресурси .

После того, как ми Вибравши тип моделі, нужно вказаті WEKA, Які дані повінні використовуват для ее создания. Незважаючи на те, що відповідь на це питання для нас цілком очевидний - потрібно взяти дані з створеного нами ARFF-файлу - існує кілька інших, більш складних, можливостей надання даних для аналізу. Опція Supplied test set дозволяє указати додатковий набір тестових даних для моделі опція Cross-validation використовує кілька наборів даних, усереднює їх і будує модель на основі середніх значень, а опція Percentage split використовує в якості бази для моделі процентилю набору даних. Ці способи застосовуються для створення аналітичних моделей, які ми розглянемо в наступних статтях цієї серії. У разі регресійного аналізу нам потрібна опція Use training set. В цьому випадку WEKA створить модель на базі даних з завантаженого ARFF-файлу.

Завершальний етап створення моделі - вибір залежною змінною (стовпчик, в якому знаходиться невідома нам значення, яке потрібно розрахувати). У нашому прикладі - це ціна будинку, так як саме це значення ми і хочемо дізнатися. Відразу після секції Test options знаходиться список, що розкривається, в якому вам потрібно вибрати залежний параметр. За замовчуванням повинен бути обраний атрибут sellingPrice. Якщо це не так, виберіть самі цей параметр.

Ми визначили всі параметри і можемо приступити до створення моделі. Натисніть кнопку Start. В результаті вікно WEKA має виглядати так, як показано на малюнку 5.

Малюнок 5. Регресійна модель WEKA для розрахунку вартості будинку

Інтерпретація результатів регресійного аналізу

WEKA не витрачає час даремно - регресійний аналіз проведено, і його результати - перед вами. Розберемо, які дані включені в результуючий висновок (див. Лістинг 2).

Лістинг 2. Готова модель регресійного аналізу

sellingPrice = (-26.6882 * houseSize) + (7.0551 * lotSize) + (43166.0767 * bedrooms) + (42292.0901 * bathroom) - 21661.1208

У лістингу 3 в отриману модель для визначення вартості підставлені параметрів моего дома.

Лістинг 3. Розрахунок вартості будинку на базі готової моделі

sellingPrice = (-26.6882 * 3198) + (7.0551 * 9669) + (43166.0767 * 5) + (42292.0901 * 1) - 21661.1208 sellingPrice = 219,328

Однак, повертаючись до тем, які ми обговорювали на початку статті, можливість інтелектуального аналізу даних не обмежуються визначенням одного параметра. Основне завдання аналізу - виявлення залежностей і зв'язків у великих наборах даних. Інтелектуальний аналіз, як правило, використовується не для того, щоб визначити яке-небудь конкретне значення, а для того, щоб побудувати модель, що дозволяє аналізувати зв'язки між даними, прогнозувати результати і робити обґрунтовані висновки, які підтверджуються зібраними статистичними даними. Давайте і ми не будемо обмежуватися розрахованої ціною будинку: розглянемо залежності між даними нашої моделі і постараємося зробити певні висновки щодо правил формування цін на нерухомість.

Гранітні елементи в оформленні кухні не впливають на вартість будинку - WEKA використовує лише ті дані, які, згідно зі статистикою, впливає на точність моделі (вплив кожної незалежної параметра на залежну змінну визначається за допомогою коефіцієнта детермінації R-квадрат, обговорення якого виходить за рамки цієї статті ). Таким чином, параметри, які не мають достатнього впливу на залежну змінну, в моделі не враховуються. Наша регресійна модель свідчить про те, що використання граніту на кухні не впливає на вартість будинку.
Стан ванних кімнат та сантехніки впливає на ціну будинку - оскільки ми використовуємо значення 0 або 1 у якості показника модернізації ванних кімнат, то відповідний коефіцієнт регресійній моделі демонструє нам, як сучасне сантехнічне обладнання впливає на вартість будинку, а саме додає 42292 $ до його ціни.
Велика площа будинку знижує його ціну - Згідно з моделлю WEKA, у міру зростання площі будинків, ціна знижується. Це випливає з того, що модель включає змінну houseSize з негативним коефіцієнтом. Що ж виходів? Збільшення площі будинку на 1 кв.фут знижує його вартість на 26 $? Подібне твердження здається очевидною нісенітницею. Ми ж розглядаємо будинку в Америці: чим більше, тим краще, особливо в Техасі, де я живу. Як же це розуміти? Це класичний приклад випадку «яке питання, така і відповідь». Насправді, розмір будинку не є незалежною величиною. Цей параметр пов'язаний, наприклад, з кількістю спалень - очевидно, що в великих будинках і кількість спалень більше. Так що наша модель, на жаль, не ідеальна, але ми можемо її поправити. Запам'ятайте: закладка Preprocess дозволяє видалити стовпці з набору даних. В якості самостійного вправи, видаліть стовпець houseSize і створіть нову модель. Перевірте, як зміна набору даних відіб'ється на ціні будинку, і яка з двох моделей більше відповідає реальності (уточнена ціна мого будинку $ 217,894).

Зауваження для фахівців із статистики

Вже згадана нами модель не відповідає цілому ряду вимог, що пред'являються до «коректної» моделі лінійного аналізу, оскільки жоден параметр, взагалі кажучи, не є цілком незалежним, а кількість рядків даних в таблиці недостатньо велике для створення працюючої моделі. Оскільки основне завдання цієї статті - познайомити читача з аналітичним пакетом WEKA, ми надмірно спростили приклад для створення регресійній моделі.

Розглянемо більш реальний приклад. Для створення моделі скористаємося файлом даних, пропонованих в якості бази для регресійного аналізу на Web-сайті проекту WEKA. Теоретично, новий приклад буде трохи складніше нашої примітивної моделі, що використовує дані про сім будинках. Пропонований файл призначений для створення регресійній моделі розрахунку витрат на бензин (MPG - кількості миль на галон), виходячи з декількох параметрів автомобіля (нехай вас не дивують показники - ці дані збиралися з 1970 по 1982 рік). Модель враховує кілька параметрів машини - кількість циліндрів, робочий об'єм двигуна, його потужність, вага автомобіля, час розгону, рік випуску, виробника і марку автомобіля. Цей набір даних містить 398 рядків і відповідає більшості вимог до статистичних даних, чого не можна сказати про наш попередньому наборі даних про будинках. Теоретично модель на основі нового набору даних буде значно складніше, і WEKA доведеться докласти певних зусиль на розробку нової моделі (хоча, як ви можете здогадатися, WEKA з легкістю впорається і з цим завданням).

Для побудови моделі регресійного аналізу на основі нового набору даних вам слід виконати всі ті ж кроки, що і для моделі аналізу вартості будинку, так що ми не наводитимемо їх повторно. Висновок, який повинен вийти в результаті регресійного аналізу, показаний в лістингу 4.

Лістинг 4. Модель регресійного аналізу для визначення MPG

class (aka MPG) = -2.2744 * cylinders = 6,3,5,4 + -4.4421 * cylinders = 3,5,4 + 6.74 * cylinders = 5,4 + 0.012 * displacement + -0.0359 * horsepower + -0.0056 * weight + 1.6184 * model = 75,71,76,74,77,78,79,81,82,80 + 1.8307 * model = 77,78,79,81,82,80 + 1.8958 * model = 79,81, 82,80 + 1.7754 * model = 81,82,80 + 1.167 * model = 82,80 + 1.2522 * model = 80 + 2.1363 * origin = 2,3 + 37.9165

Коли ви будете самостійно виконувати регресійний аналіз даних, зверніть увагу на те, що WEKA потрібно менше секунди на обробку інформації і створення моделі. Таким чином, з точки зору виконання обчислень, створення потужних регресійних моделей на базі великих масивів даних, не викликає особливих проблем. Модель для ухвали MPG може здатися набагато складніше, ніж модель для визначення вартості будинку, тим не менш, це не так. Наприклад, перший рядок моделі, -2.2744 * cylinders = 6,3,5,4 означає, що якщо у машини 6-цілінрового двигун, то потрібно в формулу підставити 1, а якщо 8-циліндровий двигун - то 0. Давайте підставимо в модель реальні дані (наприклад, з рядка 10) і перевіримо, наскільки результат обчислень буде відповідати реальному показнику.

Лістинг 5. Обчислення показника MPG

data = 8,390,190,3850,8.5,70,1,15 class (aka MPG) = -2.2744 * 0 + -4.4421 * 0 + 6.74 * 0 + 0.012 * 390 + -0.0359 * 190 + -0.0056 * 3850 + 1.6184 * 0 + 1.8307 * 0 + 1.8958 * 0 + 1.7754 * 0 + 1.167 * 0 + 1.2522 * 0 + 2.1363 * 0 + 37.9165 Expected Value = 15 mpg Regression Model Output = 14.2 mpg

Таким чином, при використанні випадково обраних даних, результат роботи нашої моделі (14,2 MPG) виявився досить близьким до реального показника (15 MPG).

Висновок

Основне завдання даної статті - дати читачеві загальне уявлення про те, що таке інтелектуальний аналіз даних, які його цілі і завдання. Інтелектуальний аналіз даних дозволяє перетворити безліч «сирих" незв'язаних даних (як правило, у виді статистичного розподілу) в придатних для використання відомості, завдяки визначенню зв'язків і залежностей між даними. При цьому вашою метою є використання цих залежностей і отриманих моделей для прогнозування певних показників, підвищення ефективності вашого бізнесу або для розуміння причин будь-яких глибинних процесів, які неможливо пояснити, використовуючи інші методи. Моделі інтелектуального аналізу можуть підтвердити ваші припущення чи, більше, звернути вашу увагу на тенденції, про існування яких ви й гадки не мали. Як цікавого прикладу використання даних інтелектуального аналізу, наведемо «міську легенду» про те, чому у вихідні в супермаркетах Walmart прилавки з пивом розташовуються в кінці рядів з підгузками: згідно з результатами аналізу, чоловіки по вихідним, як правило, закуповують підгузники, а оскільки більшість чоловіків - любителі пива, Walmart використовує ці два факти для підвищення реалізації товару.

Ця стаття знайомить читача з вільно поширюваним програмним пакетом WEKA з відкритим вихідним кодом. Безумовно, існує безліч складних комерційних програмних продуктів для інтелектуального аналізу даних, проте, з точки зору середньостатистичного користувача, пакет WEKA пропонує простий і доступний інструментарій для початкового знайомства з можливостями інтелектуального аналізу даних (особливо з огляду на той факт, що для того, щоб стати експертом в питаннях аналізу даних вам буде потрібно як мінімум 20 років серйозних занять). За допомогою WEKA ви легко освоїте ази інтелектуального аналізу і зможете вирішити безліч аналітичних завдань. Якщо ви ніколи раніше не стикалися з аналізом даних, то WEKA - це все, що вам потрібно.

Крім того, в цій статті розглядається конкретний приклад інтелектуального аналізу даних з використанням моделі регресійного аналізу (а саме, лінійної моделі з декількома незалежними параметрами) і показується, як побудувати таку модель засобами пакета WEKA. Лінійна регресійна модель проста у використанні і може працювати з безліччю різних наборів даних. Цілком можливо, що лінійна регресійна модель здасться вам найбільш корисною з усіх моделей, що розглядаються в цій серії статей. Проте, можливості інтелектуального аналізу даних не обмежуються створенням регресійних моделей. Існують і інші методи, які дозволяють набагато ефективніше аналізувати найрізноманітніші набори даних і використовувати отримані результати для виявлення певних тенденцій і закономірностей.

У висновку, я хотів би ще раз наголосити, що ця стаття, так само як і наступні матеріали цієї серії, є всього лише коротким введенням в статистику і інтелектуальний аналіз даних. Для того, щоб стати «початківцями» аналітиками, люди, як правило, протягом повного семестру вивчають статистику, а потім ще повний семестр - інтелектуальний аналіз даних. Наша мета - познайомитися з відкритим продуктом, за допомогою якого ви можете почати вивчення і застосування методів інтелектуального аналізу даних, а також оцінити потенціальні можливості ефективного використання інформації, отриманої засобами інтелектуального аналізу даних. Це необхідно мати на увазі у процес вивчення наступних статей цієї серії.

Ресурси для скачування

Схожі тими

Згідно з вимогою проекту WEKA, всі публікації про це програмному продукті повинні посилатися на документ The WEKA Data Mining Software: An Update , Складений Марком Холом (Mark Hall), Ейбом Франком (Eibe Frank), Джеффрі Холмсом (Geoffrey Holmes), Бернардом Пфарінгером (Bernhard Pfahringer), Петером Рейтеманн (Peter Reutemann) і Яном Віттені (Ian H. Witten).
Цей відеоролик, опублікований на YouTube , Продемонструє вам, як працює регресійний аналіз в електронних таблицях.
Документацію про програмний продукт WEKA і відповіді на найбільш поширені питання ви знайдете на Web-сайті проекту WEKA .
завантажте WEKA , Щоб встановити цей пакет на своєму комп'ютері.
Wikipedia пропонує детальний опис регресійного аналізу , Що включає велику кількість технічних подробиць.
Дізнайтеся більше про формат ARFF , За допомогою якого можна завантажувати дані в WEKA.
Корпорація IBM розробила свій власний програмний продукт для інтелектуального аналізу даних. Стаття Integrate InfoSphere Warehouse data mining with IBM Cognos reporting, Part 1 познайомить вас з цим програмним продуктом.
Ознайомтеся з відмінними властивостями програмного забезпечення IBM DB2 Intelligent Miner і порівняйте його можливості з можливостями WEKA
Слідкуйте за developerWorks в Twitter .

Підпішіть мене на ПОВІДОМЛЕННЯ до коментарів

Jsp?
Збирають мільярди різних показників про своїх користувачів, і у вас може виникнути цілком закономірне питання: як же ці компанії планують використовувати отриману інформацію?
Отже, як вам і вашій компанії приєднатися до тих, хто успішно використовує інтелектуальний аналіз даних в бізнесі?
Що таке інтелектуальний аналіз даних?
Що ж виходів?
Знижує його вартість на 26 $?
Як же це розуміти?