როგორ შევარჩიოთ ML ალგორითმები რეგრესიული პრობლემების მისაღწევად?

ყველგან არის ეს ხმაური – მანქანა სწავლა!


რა არის ეს “მანქანათმცოდნეობა” (ML)? “

მოდით განვიხილოთ პრაქტიკული მაგალითი. თუ წარმოიდგენდით პირველად შესრულებული დავალების შედეგის ალბათობას — მოდით ვთქვათ, რომ საქმეა ისწავლოს მანქანის ტარება. ანუ, როგორ იმოქმედებთ საკუთარ თავს? გაურკვევლობით?

მეორეს მხრივ, როგორ გინდა, რომ ერთსა და იმავე ამოცანაზე დაისვენოთ ორი წლის პრაქტიკა? ალბათ იქნებოდი თქვენი აზროვნება გადასულიყო გაურკვევლობის პარამეტრიდან ან უფრო გარკვეულიდან. ასე რომ, როგორ მიიღეთ ეს ექსპერტიზა დავალებაში?

სავარაუდოდ, თქვენ მიიღეთ გამოცდილება გარკვეული პარამეტრების შეცვლაში და თქვენი შესრულება გაუმჯობესდა. არა? ეს არის მანქანათმცოდნეობა.

კომპიუტერულ პროგრამაში ნათქვამია, რომ გამოცდილებას (E) სწავლობს ზოგიერთ დავალებაზე (T), რომ მიაღწიოს საუკეთესო შედეგს (P).

ამავე თვალსაზრისით, მანქანები სწავლობენ მათემატიკის რამდენიმე რთულ კონცეფციას, ხოლო მათთვის ყველა მონაცემი 0 და 1. ფორმაშია მოცემული. შედეგად, ჩვენ არ ვიღებთ კოდს ჩვენი პროგრამის ლოგიკას; ამის ნაცვლად, გვინდა, რომ მანქანა გაითვალისწინოს ლოგიკა საკუთარი მონაცემებიდან.

გარდა ამისა, თუ გსურთ იპოვოთ ურთიერთობა გამოცდილებასთან, სამუშაო დონესთან, იშვიათ უნარსა და ხელფასთან, მაშინ უნდა ასწავლოთ მანქანების სწავლის ალგორითმები..

კომპლექსური მონაცემთა ბაზა მეტი ფუნქციითკომპლექსური მონაცემთა ბაზა მეტი ფუნქციით

ამ შემთხვევის შესწავლის თანახმად, ეტიკეტების მისაღებად საჭიროა თვისებების შეცვლა. ალგორითმი არ დააკოპირებთ და თქვენი ყურადღება გამახვილებულია მონაცემებზე.

აქედან გამომდინარე, კონცეფციაა მონაცემები + ალგორითმი = ინსაითი. მეორეც, ჩვენთვის ალგორითმები უკვე შემუშავებულია და ჩვენ უნდა ვიცოდეთ რომელი ალგორითმი გამოვიყენოთ ჩვენი პრობლემების გადასაჭრელად. მოდით, გადახედოთ რეგრესიის პრობლემას და ალგორითმის არჩევის საუკეთესო გზას.

მანქანა სწავლების მიმოხილვა

Მიხედვით ანდრეიბუ, გერმანელი მეცნიერი, რომელსაც მანქანაში სწავლის გამოცდილება აქვს 5 წელზე მეტი ხნის გამოცდილება, ”თუ თქვენ გესმით, არის თუ არა მანქანაში სწავლის ამოცანა რეგრესიის ან კლასიფიკაციის პრობლემა, მაშინ სწორი ალგორითმის არჩევა ტორტის ნაჭერია.”

მანქანების სწავლების სხვადასხვა ჯგუფებიმანქანების სწავლის სხვადასხვა ჯგუფები

აღვნიშნოთ, მათ შორის მთავარი განსხვავება ისაა, რომ რეგრესში გამომავალი ცვლადი არის რიცხვითი (ან უწყვეტი), ხოლო კლასიფიკაციისთვის კატეგორიული (ან დისკრეტული).

რეგრესი მანქანაში სწავლის პროცესში

დასაწყისისთვის, რეგრესიის ალგორითმები ცდილობენ შეაფასონ რუკების ფუნქცია (f) შეყვანის ცვლადიდან (x) რიცხვითი ან უწყვეტი გამომავალი ცვლადიდან (y). ახლა, გამომავალი ცვლადი შეიძლება იყოს რეალური მნიშვნელობა, რომელიც შეიძლება იყოს მთელი რიცხვი ან მცურავი წერტილის მნიშვნელობა. ამრიგად, რეგრესიის პროგნოზირების პრობლემები, როგორც წესი, რაოდენობითაა ან ზომებში.

მაგალითად, თუ თქვენ მოგაწვდით მონაცემთა ბაზა სახლების შესახებ, და მოგთხოვთ წინასწარ განსაზღვროთ მათი ფასები, ეს რეგრესიული ამოცანაა, რადგან ფასი იქნება უწყვეტი გამომავალი.

საერთო რეგრესიის ალგორითმის მაგალითები მოიცავს ხაზოვან რეგრესიას, ვექტორული რეგრესიის მხარდაჭერა (SVR), და რეგრესიული ხეები.

კლასიფიკაცია მანქანაში სწავლის პროცესში

ამის საპირისპიროდ, კლასიფიკაციის ალგორითმების შემთხვევაში, y არის კატეგორია, რომელსაც რუკების ფუნქცია პროგნოზირებს. შევადგინოთ, ერთი ან რამდენიმე შეყვანის ცვლადისთვის, კლასიფიკაციის მოდელი შეეცდება წინასწარ განსაზღვროს ერთი ან რამდენიმე დასკვნის მნიშვნელობა..

მაგალითად, თუ თქვენ მოგაწვდით მონაცემთა ბაზა სახლების შესახებ, კლასიფიკაციის ალგორითმი შეგიძლიათ სცადოთ წინასწარ განსაზღვროთ, რამდენად იყიდება “ფასები სახლებისთვის, მეტ-ნაკლები გაყიდვა, ვიდრე რეკომენდებული საცალო ფასი”. აქ ორი განსხვავებული კატეგორიაა: ზემოთ მოცემულ ფასზე ზემოთ ან ქვემოთ.

საერთო კლასიფიკაციის ალგორითმის მაგალითებია ლოგისტიკური რეგრესია, Naïve Bayes, გადაწყვეტილების ხეები და K უახლოესი მეზობლები..

სწორი ალგორითმების შერჩევა

სწორი ML შეფასებამონაცემთა დეტალური თხრა ML- ის სწორი შეფასებისთვის

გაიგეთ თქვენი მონაცემები

  • გადახედეთ შემაჯამებელ სტატისტიკას
  • გამოიყენეთ “პროცენტული” პარამეტრი მონაცემების დიაპაზონის დასადგენად
  • საშუალო და მედიანტები აღწერენ ცენტრალურ ტენდენციას
  • კორელაციებმა შეიძლება მიუთითონ ძლიერი ურთიერთობები

მონაცემთა ვიზუალიზაცია

  • ყუთის ნაკვეთებს შეუძლიათ გამონაკლისის მითითება.
  • სიმკვრივის ნაკვეთები და ჰისტოგრამები აჩვენებს მონაცემთა გავრცელებას
  • Scatter ნაკვეთებს შეუძლიათ აღწერონ რაოდენობრივი ურთიერთობები

მონაცემების გაწმენდა

დაკარგული ცალი რომ გაირკვესდაკარგული ნაწილის პოვნა riProority to-do-list სწორი ML ალგორითმის მოსაძებნად

  • გაუმკლავდეთ დაკარგული მნიშვნელობა. შედეგს ექვემდებარება საქმეში მგრძნობიარე შედეგების მიცემა (გარკვეული ცვლადების მონაცემების დაკარგვამ შეიძლება გამოიწვიოს არაზუსტი პროგნოზები)
  • მიუხედავად იმისა, რომ ხის მოდელები ნაკლებად მგრძნობიარეა გარეგნების არსებობის მიმართ, რეგრესიული მოდელები ან სხვა მოდელები, რომლებიც განტოლებებს იყენებენ, უფრო მგრძნობიარეა გამონაკლისების მიმართ.
  • ძირითადად, გარედან მონაცემები შეიძლება იყოს ცუდი მონაცემების შეგროვების შედეგი, ან ისინი შეიძლება იყოს ლეგიტიმური ექსტრემალური ფასეულობები

მონაცემების განკურნება

გარდა ამისა, ნედლეული მონაცემების გაპრიალებულად გადაქცევისას, რომელიც შეესაბამება მოდელებს, უნდა იზრუნოს შემდეგზე:

  • მონაცემების ინტერპრეტაცია გაუადვილეთ.
  • უფრო რთული მონაცემების გადაღება.
  • ფოკუსირება მონაცემთა შემცირება და განზომილების შემცირება.
  • ცვლადი მნიშვნელობების ნორმალიზება.

პრობლემის კატეგორიზაცია შეყვანის ცვლადის საშუალებით

  • თქვენ შეაფასეთ მონაცემები; ეს არის ზედამხედველობითი სწავლის პრობლემა.
  • თუ არ გაქვთ უნებართვო მონაცემები და გსურთ იპოვოთ სტრუქტურა, ეს არის არაინსტალირებული სწავლის პრობლემა.
  • თუ გსურთ ობიექტური ფუნქციის ოპტიმიზაცია გარემოსთან ურთიერთქმედებით, ეს არის სწავლის განმტკიცების პრობლემა.

დაალაგეთ პრობლემა გამომავალი ცვლადის საშუალებით

  • თქვენი მოდელის გამომავალი რაოდენობაა; ეს რეგრესიის პრობლემაა.
  • როდესაც თქვენი მოდელის გამომავალი არის კლასი, მაშინ ეს არის კლასიფიკაციის პრობლემა.
  • თქვენი მოდელის გამომავალი არის შეყვანის ჯგუფების ნაკრები; ეს არის კლასტერული პრობლემა.

შემაკავებელი ფაქტორი

  • გაითვალისწინეთ შენახვის მოცულობა, რადგან ეს განსხვავდება სხვადასხვა მოდელისთვის.
  • პროგნოზი უნდა იყოს სწრაფი? მაგალითად, რეალურ დროში სცენარები, როგორიცაა საგზაო ნიშნების კლასიფიკაცია, რაც შეიძლება სწრაფად უნდა მოხდეს ავარიების თავიდან ასაცილებლად.

დაბოლოს, იპოვნეთ ალგორითმი

ლოგიკური მეთოდილოგიკური მეთოდი: დაიცავით პროცედურა

ახლა, როდესაც თქვენ გაქვთ თქვენი მონაცემების მკაფიო სურათი, შეგიძლიათ განახორციელოთ სათანადო ინსტრუმენტები, რომ აირჩიოთ სწორი ალგორითმი.

იმავდროულად, უკეთესი გადაწყვეტილების მისაღებად, აქ არის თქვენთვის სასურველი ფაქტორების ჩამონათვალი.

  • იხილეთ თუ რამდენად შეესაბამება მოდელი თქვენი ბიზნესის მიზანს
  • რამდენს მოითხოვს მოდელის წინასწარ დამუშავება
  • შეამოწმეთ მოდელის სიზუსტე
  • რამდენად ახსნილია ეს მოდელი
  • რამდენად სწრაფია მოდელი: რამდენი დრო სჭირდება მოდელის შექმნას და რამდენი დრო სჭირდება მოდელს პროგნოზის დასადგენად
  • მოდელის მასშტაბურობა

გარდა ამისა, არჩევისას ყურადღება უნდა მიაქციოთ ალგორითმის სირთულეს.

ზოგადად რომ ვთქვათ, მოდელის სირთულის გაზომვა შეგიძლიათ პარამეტრების გამოყენებით:

  • როდესაც მას სამი ან მეტი ათი თვისება სჭირდება მიზნის სწავლისა და პროგნოზირების მიზნით
  • იგი ეყრდნობა უფრო რთული მხატვრული ინჟინერიას (მაგ., პოლინომიური ტერმინების, ურთიერთმოქმედებების ან ძირითადი კომპონენტების გამოყენებით)
  • როდესაც ამ სცენარს უფრო მეტი გამოთვლები აქვს (მაგ., ერთი გადაწყვეტილების ხე 100 ხის შემთხვევითი ტყისგან განსხვავებით)

ამასთან, იგივე ალგორითმის გაკეთება შესაძლებელია უფრო რთული ხელით. ეს უბრალოდ დამოკიდებულია დაშვებული პარამეტრების რაოდენობაზე და განსახილველ სცენარზე. მაგალითად, თქვენ შეგიძლიათ შეიმუშავოთ რეგრესიის მოდელი უფრო მეტი მახასიათებლით, ან პოლინომიული ტერმინებითა და ინტერაქციის პირობებით. ან, თქვენ შეგიძლიათ შეიმუშავოთ გადაწყვეტილების ხე ნაკლები სიღრმით.

საერთო მანქანა სწავლების ალგორითმები

ხაზოვანი რეგრესია

ეს, ალბათ, ყველაზე მარტივი.
რამდენიმე მაგალითი, სადაც ხაზოვანი რეგრესია გამოიყენება:

  • ჯერ ერთი, როდესაც დროა გადავინაცვლოთ ერთი ადგილმდებარეობა მეორეზე
  • კონკრეტული პროდუქტის გაყიდვების პროგნოზირება შემდეგ თვეში
  • სისხლში ალკოჰოლის შემცველობა გავლენის კოორდინაციაზე
  • ყოველთვიური საჩუქრების ბარათების პროგნოზირება და წლიური შემოსავლის პროგნოზების გაუმჯობესება

ლოგისტიკური რეგრესია

როგორც ჩანს, ამ ალგორითმისთვის ბევრი უპირატესობაა more უფრო მეტი თვისებების ინტეგრირება ლამაზი ინტერპრეტაციის საშუალებით, მარტივი განახლების ობიექტი ახალი მონაცემების ანექსიისათვის..

სხვაგვარად რომ ვთქვათ, შეგიძლიათ გამოიყენოთ ეს:

  • პროგნოზირების შესახებ მომხმარებელთა churning.
  • კრედიტის გაიტანა ან თაღლითობის გამოვლენის განსაკუთრებული შემთხვევა.
  • მარკეტინგული კამპანიების ეფექტურობის გაზომვა.

გადაწყვეტილების ხეები

როგორც ჩანს, ერთჯერადი ხეები იშვიათად გამოიყენება, მაგრამ კომპოზიციაში, სხვა ბევრთან ერთად, ისინი აშენებენ ეფექტურ ალგორითმებს, როგორიცაა შემთხვევითი ტყე ან გრადიენტული ხის გაძლიერება. ამასთან, ერთ-ერთი პრობლემა ის არის, რომ მათ არ უჭერენ მხარს ონლაინ სწავლებას, ამიტომ თქვენ უნდა ააწყოთ თქვენი ხე, როდესაც ახალი მაგალითები გამოვა.

ხეები შესანიშნავია:

  • საინვესტიციო გადაწყვეტილებები
  • საბანკო სესხის შემსრულებლები
  • გაყიდვების წამყვანი კვალიფიკაცია

გულუბრყვილო Bayes

რაც მთავარია, Naive Bayes არის სწორი არჩევანი, როდესაც CPU და მეხსიერების რესურსები შეზღუდვის ფაქტორია. ამასთან, მისი მთავარი მინუსი ის არის, რომ მას არ შეუძლია ისწავლოს მახასიათებლებს შორის ურთიერთქმედება.

მისი გამოყენება შესაძლებელია:

  • Სახის ამოცნობა
  • ელ.ფოსტის აღნიშვნა, როგორც სპამი თუ არა.
  • სენტიმენტალური ანალიზისა და ტექსტის კლასიფიკაცია.

დასკვნა

ამიტომ, ზოგადად რომ ვთქვათ, რეალურ დროში სცენარში, გარკვეულწილად ძნელია სწორი აპარატის სწავლის ალგორითმის გაკეთება ამ მიზნისთვის. ამასთან, თქვენ შეგიძლიათ გამოიყენოთ ეს ჩამონათვალი, რომ მოხერხებულად შეარჩიოთ რამდენიმე ალგორითმი.

უფრო მეტიც, რეალურ ცხოვრებაში პრობლემის სწორად გადაწყვეტისთვის არჩევანის გაკეთება მოითხოვს ექსპერტთა ბიზნესის გაგებას, სწორ ალგორითმთან ერთად. ასე რომ, ასწავლეთ თქვენი მონაცემები სწორ ალგორითმებში, გაუშვით ისინი პარალელურად ან სერიულად, და ბოლოს შეაფასეთ ალგორითმების შესრულება, რომ აირჩიოთ საუკეთესო (ებ) ის.

თუ თქვენ ეძებთ სპეციალიზაციას ღრმა სწავლაში, მაშინ შეიძლება შეამოწმოთ ეს კურსი ღრმა სწავლით.

ტეგები:

  • აი

Jeffrey Wilson Administrator
Sorry! The Author has not filled his profile.
follow me
    Like this post? Please share to your friends:
    Adblock
    detector
    map