Како одабрати алгоритме МЛ за регресијске проблеме?

Свугдје је та зујање – Машинско учење!


Дакле, шта је ово „Машинско учење (МЛ)?“

Размотримо практичан пример. Ако можете да замислите вероватноћу исхода задатка који је први пут урађен – рецимо да је посао научити да се возите аутомобилом. То значи, како бисте добили повратне информације? Са неизвесношћу?

С друге стране, како бисте желели да се потапшате по истом задатку након неколико година праксе? Вероватно би вам се мисао пребацила са параметра несигурности или из извјеснијег. Па, како сте стекли то знање у задатку?

Највјероватније сте стекли искуство подешавањем неких параметара и побољшали сте перформансе. Јел тако? Ово је Машинско учење.

Каже се да се рачунарски програм учи из искуства (Е) о неким задацима (Т) да би дао најбољи резултат (П).

На исти начин, машине уче кроз неке сложене математичке концепте, и сви подаци за њих су у облику 0 и 1. Као резултат, не кодирамо логику за наш програм; Уместо тога, желимо да машина сама схвати логику из података.

Штавише, ако желите да пронађете однос између искуства, нивоа посла, ретке вештине и плате, тада морате да подучите алгоритме машинског учења.

Комплексни скуп података са више функцијаКомплексни скуп података са више функција

Према овој студији случаја, морате да прилагодите функције да бисте добили етикете. Али, не кодирате Алгоритам, и ваш фокус би требао бити на подацима.

Стога је концепт такав Подаци + алгоритам = Увиди. Друго, алгоритми су већ развијени за нас и морамо знати који алгоритам користити за решавање наших проблема. Погледајмо проблем регресије и најбољи начин избора алгоритма.

Преглед машинског учења

Према Андреибу, немачки научник са више од 5 година искуства у машинском учењу, „Ако можете разумети да ли је задатак машинског учења регресија или проблем класификације, онда је одабир правог алгоритма комад колача.“

различите групе машинског учењаРазличите групе машинског учења

Да набрајам, главна разлика између њих је та што је излазна варијабла у регресији нумеричка (или континуирана) док је класификација класична (или дискретна).

Регресија у машинском учењу

За почетак, регресијски алгоритми покушавају процијенити функцију мапирања (ф) од улазних варијабли (к) до нумеричких или континуираних излазних варијабли (и). Сада, излазна варијабла може бити стварна вредност, која може бити цела вредност или вредност са плутајућом тачком. Због тога су проблеми са предвиђањем регресије обично количине или величине.

На пример, ако вам је достављен скуп података о кућама, а од вас се тражи да предвидите њихове цене, то је регресијски задатак, јер ће цена бити у континуитету.

Примери уобичајених регресијских алгоритама укључују линеарну регресију, Подршка векторске регресије (СВР), и регресијско дрвеће.

Класификација у машинском учењу

Насупрот томе, у случају алгоритама за класификацију, и је категорија коју функција мапирања предвиђа. Да би се развила, за једну или више улазних променљивих, класификациони модел ће покушати да предвиди вредност једног или више закључака.

На примјер, ако вам је достављен скуп података о кућама, алгоритам за класификацију може покушати предвидјети да ли цијене кућа “продају више или мање од препоручених малопродајних цијена.” Овдје су двије дискретне категорије: изнад или испод наведене цијене.

Примјери уобичајених алгоритама за класификацију укључују логистичку регресију, наивни Баиес, стабла одлука и К најближе сусједе.

Одабир правих алгоритама

Исправна процена МЛДетаљно копање података за исправну процену МЛ

Схватите своје податке

  • Погледајте сажету статистику
  • Употријебите параметар ‘Перцентиле’ да бисте идентифицирали опсег података
  • Просјеци и медијани описују средишњу тенденцију
  • Корелације могу указивати на јаке везе

Визуализујте податке

  • Нацртани записи могу указивати на изузетке.
  • Дијаграми густоће и хистограми приказују ширење података
  • Распоред плоча може описати количинске односе

Очистите податке

Проналажење недостајућих комадаПроналажење недостајућих комада – Приоритет на списку обавеза за проналажење правог МЛ алгоритма

  • Суочите се са недостајућом вредношћу. Резултат је подложан давању осетљивих исхода у случају (недостајући подаци за одређене варијабле могу резултирати нетачним предвиђањима)
  • Иако су модели стабала мање осетљиви на присуство одметника, регресивни модели или други модели који користе једначине су осетљивији на изузеће
  • У основи, одласци могу бити резултат лошег прикупљања података или би могли бити легитимне екстремне вриједности

Обрадите податке

Надаље, приликом претварања необрађених података у полирани, који је у складу са моделима, морате водити рачуна о следећем:

  • Олакшајте интерпретацију података.
  • Снимите сложеније податке.
  • Фокусирајте се на смањење сувишности и димензионалности података.
  • Нормализирајте променљиве вредности.

Проблеми категоришите преко улазне променљиве

  • Означили сте податке; то је проблем учења под надзором.
  • Ако имате необележене податке и желите да пронађете структуру, то је проблем који се не надгледа.
  • У случају да желите да оптимизирате објективну функцију интеракцијом са окружењем, то представља проблем учења.

Проблеми категоришите кроз излазну варијаблу

  • Излаз вашег модела је број; то је регресијски проблем.
  • Када је излаз вашег модела класа, то је проблем с класификацијом.
  • Излаз вашег модела је скуп улазних група; то је проблем кластера.

Фактор ограничења

  • Обратите пажњу на капацитет складишта јер он варира за различите моделе.
  • Да ли предвиђање мора бити брзо? На пример, у сценаријима у стварном времену, као што је класификација путних знакова, требате што брже избећи несреће.

На крају, пронађите алгоритам

Логички методЛогички метод: Следите поступак

Сада када имате јасну слику својих података, могли бисте имплементирати одговарајуће алате за одабир правог алгоритма.

У међувремену, за бољу одлуку, ево списка фактора за вас:

  • Погледајте да ли се модел поклапа са вашим пословним циљем
  • Колико пред-обрада захтева модел
  • Проверите тачност модела
  • Колико је модел објашњив
  • Колико је брз модел: Колико времена треба да се направи модел и колико дуго треба модел да се предвидје
  • Скалабилност модела

Да бисмо то додали, морамо обратити пажњу на сложеност алгоритма приликом избора.

Генерално гледано, комплексност модела можете мерити користећи параметре:

  • Када је потребно две или више од десет функција за учење и предвиђање циља
  • Ослања се на сложенији инжењеринг (нпр. Коришћење полиномних термина, интеракција или главних компоненти)
  • Када сценариј има више рачунских режијских трошкова (нпр. Једно стабло одлука према насумичној шуми од 100 стабала)

Поред тога, исти алгоритам може бити сложенији ручно. Чисто зависи од броја упућених параметара и сценарија који се разматра. На примјер, можете дизајнирати регресијски модел с више значајки или полиномским изразима и терминима интеракције. Или можете дизајнирати стабло одлуке са мањом дубином.

Заједнички алгоритми машинског учења

Линеарна регресија

Ово су вероватно најједноставније.
Мало је примера где се користи линеарна регресија:

  • Прво, када дође време да одете једну локацију на другу
  • Предвиђање продаје одређеног производа следећег месеца
  • Утицај садржаја алкохола у крви на координацију
  • Предвидите месечну продају поклон картица и побољшајте годишње пројекције прихода

Логистичка регресија

Очигледно, постоји пуно предности овог алгоритма – интеграција више функција са лепим интерпретацијским уређајем, лако ажурирање објекта за додавање нових података.

Другим речима, ово можете користити за:

  • Предвиђање пробијања купаца.
  • Конкретни случај кредитног бодовања или откривање преваре.
  • Мерење ефикасности маркетиншких кампања.

Дрвеће одлука

Очигледно, појединачна стабла се ретко користе, али у саставу, уз многе друге, граде ефикасне алгоритме као што су Рандом Форест или Градиент Трее Боостинг. Међутим, један од недостатака је што не подржавају учење путем интернета, тако да морате обновити своје дрво када се појаве нови примери.

Дрвеће је изврсно за:

  • Одлуке о инвестирању
  • Неплаћеници банкарског зајма
  • Продајне квалификације

Наиве Баиес

Оно што је најважније, Наиве Баиес је прави избор када су ЦПУ и меморијски ресурси ограничавајући фактор. Међутим, његов главни недостатак је што не може да учи интеракције између функција.

Може се користити за:

  • Препознавање лица
  • Да бисте е-пошту означили као нежељену пошту или не.
  • Анализа осјећаја и класификација текста.

Закључак

Стога, генерално гледано, у сценарију у стварном времену тешко је под правим алгоритмом машинског учења за ту сврху. Међутим, овај контролни списак можете да користите за ужи избор неколико алгоритама по вашој жељи.

Штавише, одлучивање за исправно решење проблема из стварног живота захтева стручно разумевање пословања заједно са исправним алгоритмом. Дакле, научите своје податке правим алгоритмима, покрените их било паралелно или серијски, а на крају процените рад алгоритама како бисте одабрали најбољи.

Ако желите да се специјализујете за дубоко учење, можда ћете то моћи да проверите овај курс дубоким учењем.

ОЗНАКЕ:

  • АИ

Jeffrey Wilson Administrator
Sorry! The Author has not filled his profile.
follow me
    Like this post? Please share to your friends:
    Adblock
    detector
    map