თანამედროვე ნეირონული ქსელების მასშტაბები ფიზიკურ რეალობასთან პირდაპირ კონფლიქტში მოდის. მილიარდობით პარამეტრის მქონე არქიტექტურები მონაცემთა ცენტრებში უზარმაზარ გამოთვლით სიმძლავრეს, მეხსიერების გამტარუნარიანობასა და ენერგიას მოითხოვს. თუმცა, როდესაც საქმე ინფერენსის ლოკალურ, პერიფერიულ მოწყობილობებზე შესრულებას ეხება, ინჟინრები მკაცრი აპარატურული შეზღუდვების წინაშე დგებიან. ხელმისაწვდომი მეხსიერება ასეთ გარემოში ხშირად რამდენიმე გიგაბაიტით შემოიფარგლება, მაშინ როცა ენერგომოხმარების ლიმიტი, ბატარეის მოცულობა, სილიციუმის ფართობი და თერმული დისიპაცია ქმნის კრიტიკულ ბარიერს, სადაც მძლავრი ალგორითმების მოთხოვნები და Edge გარემოს მწირი რესურსები ერთმანეთს უპირისპირდება. ამავე დროს, მეხსიერების გამტარუნარიანობა თავად ინფერენსის პროცესში ხშირად იქცევა ბოთლის ყელად, რადგან თითოეული ახალი ტოკენის ან პროგნოზის გენერაციისას სისტემას დიდი მოცულობის წონებთან უწევს სწრაფი წვდომა. ეს ტექნოლოგიური დისბალანსი მოითხოვს არა ალგორითმის გამარტივებას, არამედ სისტემურ ოპტიმიზაციას.

ასეთ პირობებში მოდელის კომპრესია აღარ წარმოადგენს მხოლოდ არჩევით ტექნიკას — ის საინჟინრო აუცილებლობაა. იმისათვის, რომ რთული ტენზორული ოპერაციები პორტატიულ პროცესორებში შესრულდეს, აუცილებელია ქსელის წონების სიზუსტის შეკვეცა კვანტიზაციის მეშვეობით და ჭარბი ნეირონული კავშირების გასხვლა, რაც პარამეტრების რაოდენობასა და მეხსიერებით დატვირთვას რადიკალურად ამცირებს. ამასთან, ცოდნის დისტილაცია უზრუნველყოფს გიგანტური არქიტექტურის ქცევის კომპაქტურ მოდელში ტრანსფერს ისე, რომ ხარისხის კრიტიკული ნაწილი შენარჩუნდეს. ეს მეთოდები უკვე აღარ არის ოფციონალური გაუმჯობესება; ისინი აუცილებელი პირობაა იმისთვის, რომ მოდელებმა იმუშაონ რეალურ დროში დაბალი სიმძლავრის, ბატარეაზე მომუშავე ან რესურსებით შეზღუდულ მოწყობილობებზე. სწორედ ეს მექანიზმები გარდაქმნის ქსელების ტოპოლოგიას ისე, რომ შემცირებული მეხსიერებისა და გამოთვლითი რესურსების ფონზეც ლოკალური ინფერენსი მაქსიმალურად შესაძლებელი გახდეს, რაც ნათლად აჩვენებს, როგორ მუშაობს ეს ოპტიმიზაცია პრაქტიკაში.

სწრაფი შეჯამება

მთავარი იდეები: ქვემოთ მოცემულია სტატიის ძირითადი არგუმენტები და დასკვნები.

  • დიდი ხელოვნური ინტელექტის მოდელები ბუნებრივად ვერ ერგება პერიფერიულ მოწყობილობებს მეხსიერების, გამტარუნარიანობისა და ენერგიის მკაცრი შეზღუდვების გამო.
  • მთავარი შეზღუდვა ხშირად არის მეხსიერების გამტარუნარიანობა (ფონ ნოიმანის ბოთლის ყელი / მეხსიერების კედელი), და არა უშუალოდ გამოთვლითი სიმძლავრე.
  • კვანტიზაცია ამცირებს მოდელის ზომას და რეაგირების დროს, მონაცემების დაბალბიტიან წარმოდგენაზე გადასვლით.
  • გასხვლა აშორებს ზედმეტ კავშირებს და ამცირებს გამოთვლით დატვირთვას სტრუქტურულ დონეზე.
  • ცოდნის დისტილაცია საშუალებას იძლევა დიდი მოდელის ქცევა გადაიტანოს კომპაქტურ არქიტექტურაში.
  • ყველაზე ეფექტურია ამ მეთოდების კომბინაცია და მათი შესაბამისობა აპარატურულ ამაჩქარებლებთან (მაგალითად, ნეირონული პროცესორები).
  • მოდელის ოპტიმიზაცია უკვე სისტემური აუცილებლობაა და არა მხოლოდ წარმადობის გაუმჯობესების ტექნიკა.

შინაარსი

რატომ არ ეტევა დიდი AI მოდელები Edge მოწყობილობებში ბუნებრივად

თანამედროვე დიდი ენობრივი მოდელები და რთული ნეირონული არქიტექტურები სრულიად განსხვავებულ გამოთვლით პარადიგმაზეა აგებული, ვიდრე ის აპარატურული ეკოსისტემა, რომელიც პორტატიულ ელექტრონიკას მართავს. მონაცემთა ცენტრებში, სადაც ასობით GPU პარალელურ რეჟიმში მუშაობს, ტრანზისტორების ბიუჯეტი და ენერგომომარაგება პრაქტიკულად ულიმიტოა, თუმცა პერიფერიულ მოწყობილობებზე ტექნიკური სურათი რადიკალურად იცვლება. როდესაც მილიარდობით პარამეტრის მქონე მატრიცები Edge ინფრასტრუქტურაში ინტეგრირდება, სისტემა მყისიერად ეჯახება ფიზიკურ შეზღუდვებს — სილიციუმის ფართობისა და მეხსიერების ლიმიტებს, მეხსიერების კონტროლერების შეზღუდულ არქიტექტურასა და თერმული ბიუჯეტის (Thermal Design Power - TDP) კრიტიკულ ზღვრებს. ამ ტექნოლოგიური ასიმეტრიის გამო, სტანდარტული მოდელის უშუალო დეპლოიმენტი მობილურ პროცესორებზე არა უბრალოდ არაეფექტიანი, არამედ პრაქტიკულად შეუძლებელია დამატებითი ოპტიმიზაციის გარეშე. თუმცა 2025–2026 წლისთვის, დაბალბიტიანი კვანტიზაციის (INT4/INT8) გამოყენებით, 7–9 მილიარდიანი პარამეტრის მქონე მოდელების გაშვება უკვე შესაძლებელია ფლაგმანურ მოწყობილობებზე შეზღუდული მეხსიერების ფარგლებში. სისტემური არქიტექტორებისთვის მთავარ გამოწვევას წარმოადგენს არა მხოლოდ ალგორითმის გამოთვლითი სირთულე, არამედ მონაცემთა მუდმივი გადატანა მეხსიერებიდან გამოთვლით ბირთვებამდე, რაც წარმოქმნის კრიტიკულ დაყოვნებას და რეალურ დროში ინფერენსის შესრულების ნებისმიერ მცდელობას პარალიზებულს ხდის. შესაბამისად, ტექნიკური კომპრომისების გარეშე, გრანდიოზული ტენზორული ოპერაციები ლოკალურ მიკროსქემებში ვერ განთავსდება, რაც მოითხოვს აპარატურული და პროგრამული ფენების სრულყოფილ სინქრონიზაციას.

პრაქტიკულად, 7–13 მილიარდიანი პარამეტრის მქონე ენობრივი მოდელებიც კი კვანტიზაციის გარეშე საჭიროებს ათეულობით გიგაბაიტ მეხსიერებას, მაშინ როცა სტანდარტული მობილური მოწყობილობები მხოლოდ რამდენიმე გიგაბაიტ თავისუფალ რესურსს ფლობს, რაც ლოკალურ ინფერენსს ფიზიკურად ზღუდავს.

თანამედროვე პრაქტიკაში, მაგალითად, 7–9 მილიარდიანი მოდელები (როგორიცაა Llama-3 კლასის ან Qwen-ის მცირე ვერსიები) ხშირად კომპრესირდება 4-ბიტიან ფორმატამდე (მაგალითად, ჯგუფური INT4 ან AWQ), რის შედეგადაც მათი ზომა დაახლოებით 3.5–5.5 გიგაბაიტამდე მცირდება. ასეთ პირობებში, კონტექსტური ქეშის (KV cache) ჩათვლით, მათი გაშვება უკვე შესაძლებელია თანამედროვე მობილურ ჩიპებზე 15–40 ტოკენი/წამში სიჩქარით.

მაგალითად, თანამედროვე ფლაგმანურ ჩიპებზე, როგორიცაა Snapdragon-ის უახლესი თაობა ან Apple-ის სერიის პროცესორები, 7–8 მილიარდიანი მოდელები 4-ბიტიან ფორმატში ხშირად აღწევს დაახლოებით 30–45 ტოკენი/წამში წარმადობას.

ასეთი ოპტიმიზაციის მაგალითებია Qwen 2.5 და Llama 3-ის მცირე ვერსიები, რომლებიც 4-ბიტიან ფორმატში ეფექტურად მუშაობს მობილურ ჩიპებზე. ასევე ფართოდ გამოიყენება უფრო მცირე არქიტექტურები, როგორიცაა Phi-სა და Gemma-ს კომპაქტური მოდელები, რომლებიც კიდევ უფრო მაღალი სიჩქარით ასრულებს ინფერენსს შეზღუდულ რესურსებში.

პარამეტრების რაოდენობა და მეხსიერების რეალური ლიმიტები

სტანდარტული ნეირონული ქსელის თითოეული პარამეტრი, როგორც წესი, წარმოდგენილია 32-ბიტიანი მცურავი მძიმის (FP32) ფორმატში, რაც ნიშნავს, რომ მხოლოდ ერთი წონის შენახვას 4 ბაიტი სჭირდება. შესაბამისად, 7-მილიარდიანი პარამეტრის მქონე მოდელის მხოლოდ ატვირთვა 28 გიგაბაიტ ოპერატიულ მეხსიერებას მოითხოვს, რასაც ემატება კონტექსტის ფანჯრისა და აქტივაციების შესანახი დამატებითი სივრცე. პორტატიული მოწყობილობების უმეტესობაში კი საერთო მეხსიერების (Unified Memory) მოცულობა გაცილებით მცირეა და ის ოპერაციულ სისტემასა და სხვა ფონურ პროცესებზე ნაწილდება. როდესაც ლოკალური AI სისტემები (on-device AI) ცდილობენ ამ მასშტაბის მატრიცების მეხსიერებაში ჩატვირთვას, სისტემა მყისიერად განიცდის Out-Of-Memory (OOM) კრახს, ვინაიდან ჩიპზე ინტეგრირებული SRAM ბუფერები და გარე DRAM მოდულები ფიზიკურად ვერ იტევს ამ მოცულობის ტენზორულ სტრუქტურებს. ეს ფუნდამენტური ბარიერი აიძულებს ინჟინრებს, მიმართონ მოდელის შეკუმშვის აგრესიულ მეთოდებს, რათა ქსელის ტოპოლოგია არსებულ აპარატურულ ჩარჩოებში მოექცეს.

მეხსიერების გამტარუნარიანობა როგორც მთავარი შეზღუდვა

თუმცა მეხსიერების მოცულობაზე ბევრად უფრო მწვავე პრობლემას მისი გამტარუნარიანობა წარმოადგენს, რაც თანამედროვე გამოთვლით სისტემებში ფონ ნოიმანის ბოთლის ყელის (Von Neumann bottleneck) კლასიკური გამოვლინებაა. ინფერენსის ე.წ. decode ფაზაში (ტოკენების ეტაპობრივი გენერაციის ეტაპი), თითოეული ახალი ტოკენის გენერაციისას სისტემას უწევს მოდელის წონების განმეორებით ჩატვირთვა ოპერატიული მეხსიერებიდან, რაც ქმნის მრავალჯერად DRAM მიმართვებს. Edge მოწყობილობებში, სადაც მეხსიერების გამტარუნარიანობა ხშირად 50–100 GB/s-ის ფარგლებშია, ეს პროცესი იქცევა კრიტიკულ შემზღუდველ ფაქტორად, რომელიც პირდაპირ ზღუდავს ინფერენსის რეალურ წარმადობას. მეხსიერებასა და გამოთვლით ბირთვებს შორის მონაცემთა გადაცემის ეს არხი (Memory Bus) ძალზედ ვიწროა, რაც იწვევს იმას, რომ არითმეტიკულ-ლოგიკური მოწყობილობები (ALU) უმოქმედოდ რჩებიან და მონაცემების მიწოდებას ელოდებიან. ამ ფენომენს მეხსიერების კედელს (Memory Wall) უწოდებენ — მდგომარეობას, როდესაც სისტემის წარმადობას განსაზღვრავს არა ჩიპის გამოთვლითი სიმძლავრე (TFLOPs), არამედ მონაცემთა გადატანის სიჩქარე (GB/s). შესაბამისად, ალგორითმის ოპტიმიზაციის მთავარი მიზანი ხდება არა მხოლოდ წონების მოცულობის შემცირება, არამედ პროცესორსა და ოპერატიულ მეხსიერებას შორის ინფორმაციის ტრანზაქციების მინიმიზაცია, რათა გამოთვლითი ციკლები მაქსიმალურად დაიტვირთოს.

განსაკუთრებით მნიშვნელოვანი ხდება KV cache-ის მართვა, რომელიც ავტორეგრესიულ მოდელებში სწრაფად იზრდება კონტექსტის სიგრძესთან ერთად. თანამედროვე სისტემები ხშირად იყენებს KV cache-ის კვანტიზაციას (INT8 ან INT4), რაც მნიშვნელოვნად ამცირებს მეხსიერების დატვირთვას და DRAM მიმართვების რაოდენობას, რითაც ნაწილობრივ ამსუბუქებს Memory Wall-ის ეფექტს.

პრაქტიკაში, KV cache-ის ზომა ხშირად განსაზღვრავს, რამდენად დიდი მოდელი შეიძლება რეალურად გაეშვას კონკრეტულ მოწყობილობაზე, რაც პირდაპირ აისახება ქვემოთ განხილულ მოდელების კონფიგურაციებზეც.

ბოლო წლებში ასევე აქტიურად გამოიყენება პროგნოზული დეკოდირება (Speculative Decoding) და მრავალტოკენიანი გენერაციის ტექნიკები, როგორიცაა Medusa ან Lookahead. ეს მიდგომები ამცირებს მეხსიერებაზე დამოკიდებულებას თითო ტოკენის გენერაციისას და ზრდის საერთო წარმადობას იგივე აპარატურულ პირობებში.

ენერგომოხმარება და თერმული შეზღუდვები Edge გარემოში

მეხსიერების ინტენსიური ტრანზაქციები პირდაპირ კავშირშია ენერგომოხმარების ექსპონენციალურ ზრდასთან. DRAM-დან მონაცემების წაკითხვა ასეულობით ჯერ მეტ ენერგიას მოითხოვს, ვიდრე უშუალოდ მატრიცული გამრავლება მიკროპროცესორში. მობილურ და პერიფერიულ მოწყობილობებში კი ენერგეტიკული ბიუჯეტი მკაცრად შეზღუდულია ბატარეის ტევადობითა და, რაც მთავარია, თერმული დისიპაციის (TDP) ლიმიტებით. როდესაც ჩიპი დიდი მოცულობის მონაცემებს ამუშავებს, გამოიყოფა სითბო, რომლის გაფრქვევაც პასიური გაგრილების სისტემებში (მაგალითად, სმარტფონებში) ფიზიკურად შეუძლებელია. ტემპერატურის კრიტიკულ ზღვარზე მიღწევისას სისტემა ავტომატურად მიმართავს თერმულ ტროტლინგს (Thermal Throttling), ანუ აგდებს პროცესორის სიხშირეს, რაც მოდელის მუშაობას კატასტროფულად ანელებს. ამიტომ, ნებისმიერი ალგორითმი, რომელიც განკუთვნილია ლოკალური მუშაობისთვის, ვალდებულია ოპერირებდეს ენერგოეფექტურობის უკიდურესად ვიწრო კორიდორში, წინააღმდეგ შემთხვევაში, აპარატურა ფიზიკურად ვერ უზრუნველყოფს ხანგრძლივ და სტაბილურ წარმადობას. პრაქტიკაში, თანამედროვე ფლაგმანურ მოწყობილობებში მდგრადი დატვირთვისას (sustained load) ტემპერატურა ხშირად 45–55°C-მდე იზრდება, რის შემდეგაც იწყება თერმული throttling და წარმადობა 30–50%-ით მცირდება რამდენიმე წუთში.

როგორ ამცირებს Quantization (კვანტიზაცია) მოდელის ზომასა და რესურსების მოთხოვნას

კვანტიზაცია წარმოადგენს ნეირონული ქსელების შეკუმშვის ერთ-ერთ ყველაზე მძლავრ მათემატიკურ ინსტრუმენტს, რომელიც მიზნად ისახავს ალგორითმის აპარატურულ ოპტიმიზაციას საინფორმაციო თეორიის პრინციპებზე დაყრდნობით. ტექნიკურად, ეს პროცესი გულისხმობს მოდელის წონებისა და აქტივაციების უწყვეტი, მაღალი რეზოლუციის მნიშვნელობების (მცურავი მძიმის ფორმატები) ასახვას უფრო ვიწრო, დისკრეტულ რიცხვთა სიმრავლეში. კვანტიზაციის საფუძველია ის ემპირიული დაკვირვება, რომ ღრმა ნეირონული ქსელები ხასიათდებიან მაღალი მდგრადობით ხმაურის მიმართ და არ საჭიროებენ აბსოლუტურ მათემატიკურ სიზუსტეს პატერნების სრულფასოვანი ამოცნობისთვის. სიზუსტის სკალირების ეს ტექნიკა ინჟინრებს საშუალებას აძლევს, მოდელის ინფორმაციული ენტროპია შეინარჩუნონ ბევრად უფრო მარტივი მონაცემთა სტრუქტურების მეშვეობით. პროცესი მოიცავს რთულ კალიბრაციულ ალგორითმებს, რომლებიც განსაზღვრავენ ტენზორების დინამიკურ დიაპაზონს და აბალანსებენ კვანტიზაციის შეცდომას (Quantization Error) ისე, რომ ქსელის საბოლოო ვარაუდის სისწორე მინიმალურად დაზარალდეს, თუმცა სისტემური რესურსების ეკონომია მაქსიმალური იყოს. შესაბამისად, კვანტიზაცია არ არის მხოლოდ მეხსიერების დაზოგვის მექანიზმი, ის არის აპარატურასთან ალგორითმის სემანტიკური ადაპტაციის ფუნდამენტური პროცესი, რომელიც ტრანსფორმაციულ არქიტექტურებს მობილური ჩიპსეტებისთვის გასაგებ ენაზე თარგმნის.

ეს განსაკუთრებით ეფექტურია თანამედროვე ჩიპებზე, სადაც სპეციალიზებული ამაჩქარებლები ოპტიმიზებულია დაბალბიტიანი ოპერაციებისთვის და უზრუნველყოფს მნიშვნელოვნად მაღალ throughput-ს იგივე ენერგეტიკულ ბიუჯეტში.

რას ნიშნავს დაბალი ბიტური სიზუსტე ნეირონულ ქსელებში

დაბალი ბიტური სიზუსტე (Low-bit Precision) ნიშნავს მოდელის პარამეტრების წარმოსადგენად ბიტების შემცირებული რაოდენობის გამოყენებას. ტრადიციული 32-ბიტიანი (FP32) სისტემიდან ინჟინრები გადადიან 16-ბიტიან (FP16/BF16), 8-ბიტიან მთელ რიცხვებზე (INT8) ან თუნდაც 4-ბიტიან ექსტრემალურ კვანტიზაციაზე (INT4). მაგალითად, INT8 ფორმატში თითოეული პარამეტრი შეიძლება იყოს მხოლოდ 256 სხვადასხვა მნიშვნელობიდან ერთ-ერთი, ნაცვლად მილიარდობით ვარიაციისა, რომელსაც მცურავი მძიმე გვთავაზობს. ამ დროს ხდება წრფივი ან არაწრფივი ასახვა (Mapping) ორიგინალ ტენზორულ მნიშვნელობებსა და ახალ, შეზღუდულ დიაპაზონს შორის მულტიპლიკატორების (Scaling Factor) და წანაცვლების (Zero-point) გამოყენებით. ეს ტრანსფორმაცია რადიკალურად ამცირებს მათემატიკური ოპერაციების კომპლექსურობას, ვინაიდან მთელი რიცხვების არითმეტიკა (Integer Math) სილიციუმის დონეზე ბევრად უფრო მარტივ ლოგიკურ ვენტილებს მოითხოვს, ვიდრე მცურავი მძიმის რთული ოპერაციები.

როგორ ამცირებს კვანტიზაცია მეხსიერების კვალს (Memory Footprint) და დაყოვნებას (Latency)

კვანტიზაციის უმთავრესი შედეგი მეხსიერების კვალი (Memory Footprint) მკვეთრი შემცირებაა — FP32-დან INT8-ზე გადასვლა მოდელის ზომას ზუსტად 4-ჯერ ამცირებს. ეს პირდაპირ კავშირშია პროცესორის ქეშ-მეხსიერების ეფექტიანობის ზრდასთან, რადგან L1 და L2 ბუფერებში ოთხჯერ მეტი პარამეტრი ეტევა, რაც DRAM-თან ძვირადღირებულ მიმართვებს ამცირებს. როდესაც სისტემა მონაცემთა გადაცემის ბარიერს ხსნის, Edge AI ლატენტობა და სიჩქარე რადიკალურად უმჯობესდება, ვინაიდან ვექტორული გამრავლების ოპერაციები პრაქტიკულად მყისიერად სრულდება. გარდა ამისა, მთელ რიცხვებზე ოპერირება პროცესორს აძლევს საშუალებას, ერთი ტაქტის ციკლში (Clock Cycle) უფრო მეტი ოპერაცია შეასრულოს SIMD (Single Instruction, Multiple Data) ინსტრუქციების გამოყენებით. შესაბამისად, მცირდება როგორც მონაცემთა გადატანის დრო, ისე უშუალოდ გამოთვლის ციკლების რაოდენობა.

რეალურ სისტემებში ეს პროცესი ხშირად ხორციელდება კონკრეტული ფორმატებით, როგორიცაა Q4_K_M, AWQ ან GPTQ, რომლებიც განსხვავებული კომპრომისებით აბალანსებს სიზუსტესა და მეხსიერების ეკონომიას.

თანამედროვე სისტემებში, კვანტიზაცია ხშირად გამოიყენება შერეული სიზუსტის (mixed precision) რეჟიმში, სადაც წონები წარმოდგენილია INT4 ან INT8 ფორმატში, ხოლო აქტივაციები რჩება უფრო მაღალი სიზუსტის (FP16 ან BF16). დამატებით, ჯგუფური ან არხობრივი კვანტიზაცია ამცირებს შეცდომის გავრცელებას და საშუალებას იძლევა უფრო აგრესიული შეკუმშვა მინიმალური სიზუსტის დანაკარგით.

ეს ეფექტი განსაკუთრებით თვალსაჩინოა ავტორეგრესიულ მოდელებში, სადაც დაყოვნება პირდაპირ განსაზღვრავს მომხმარებლის რეალურ გამოცდილებას.

როდის ხდება კვანტიზაციის კომპრომისი კრიტიკული

კვანტიზაციის პროცესში მთავარი ტექნიკური კომპრომისი (Trade-off) ეფექტიანობასა და მოდელის სიზუსტის დეგრადაციას შორის გადის. როდესაც პარამეტრებს ვაკუმშებთ, წარმოიქმნება დამრგვალების ცდომილება, რომელიც ფენიდან ფენაში გადაცემისას შესაძლოა კუმულაციურად გაიზარდოს. ეს განსაკუთრებით კრიტიკული ხდება დიდი ენობრივი მოდელების (LLMs) შემთხვევაში, სადაც ვლინდება ეგრეთ წოდებული "აქტივაციის აუტლაიერები" (Activation Outliers) — ცალკეული, არანორმალურად მაღალი მნიშვნელობები, რომელთა მოჭრაც ქსელის ლოგიკურ მსჯელობას სრულად არღვევს. ამ ზღვარზე ინჟინრები იძულებულნი არიან აირჩიონ ტრენინგის შემდგომი კვანტიზაცია (PTQ) ან მეტად რესურსტევადი კვანტიზაციის შემეცნებითი სწავლება (Quantization-Aware Training - QAT). თუ დეგრადაციის კოეფიციენტი დასაშვებ ემპირიულ ზღვარს სცდება, ლოკალური მოდელი იწყებს ჰალუცინაციას ან კარგავს კონტექსტის აღქმის უნარს, რაც მიუთითებს იმაზე, რომ შეკუმშვის ლიმიტი ამოწურულია.

გასხვლა (Pruning) და ცოდნის დისტილაცია (Knowledge Distillation): როგორ იკუმშება მოდელი სტრუქტურულ დონეზე

თუ კვანტიზაცია ცვლის მონაცემთა მათემატიკურ რეპრეზენტაციას, გასხვლა (Pruning) და ცოდნის დისტილაცია (Knowledge Distillation) მიზნად ისახავს უშუალოდ ნეირონული ქსელის ტოპოლოგიისა და სტრუქტურული მასშტაბის ტრანსფორმაციას. დიდი არქიტექტურები ხასიათდებიან მნიშვნელოვანი სტრუქტურული ჭარბობით (Overparameterization). ეს ფენომენი ნიშნავს, რომ მოდელი გაცილებით მეტ პარამეტრს შეიცავს, ვიდრე რეალურად საჭიროა ამოცანის გადასაჭრელად. პარამეტრების უდიდესი ნაწილი ინფერენსის დროს მინიმალურ ზეგავლენას ახდენს საბოლოო შედეგზე, რაც ქმნის ოპტიმიზაციის უზარმაზარ პოტენციალს. ამ ფონზე, სტრუქტურული მოდიფიკაციის ტექნიკები ალგორითმის არქიტექტურას არგებენ შეზღუდული რესურსების მქონე მოწყობილობების სპეციფიკას. გასხვლის ალგორითმები ფიზიკურად ანადგურებენ გამოუსადეგარ ნეირონულ კავშირებს, ხოლო დისტილაციის პარადიგმა სრულიად ახალ, კომპაქტურ ქსელს აგებს, რომელიც მასიური მოდელის ქცევას აკოპირებს. ეს მეთოდები ეფუძნება ნეიროპლასტიურობის პრინციპების კომპიუტერულ ანალოგებს, სადაც სისტემა ინარჩუნებს მხოლოდ ყველაზე კრიტიკულ, ინფორმაციულად მდიდარ გზებს (Pathways). შედეგად ვიღებთ არქიტექტურას, რომელიც სტრუქტურულად ინარჩუნებს ორიგინალის ფუნქციურ ქცევას, თუმცა მისი სტრუქტურული სიმკვრივე და ოპერაციული მოთხოვნები რადიკალურად მორგებულია პერიფერიული სისტემების უმკაცრეს ტექნიკურ მოთხოვნებს.

როგორ მუშაობს გასხვლა და რა იჭრება მოდელიდან

Pruning ეფუძნება მარტივ, მაგრამ მძლავრ ლოგიკას: ნეირონულ ქსელში არსებული ყველა წონა თანაბრად მნიშვნელოვანი არ არის. ალგორითმი აანალიზებს მატრიცებს და იდენტიფიცირებს იმ პარამეტრებს, რომელთა მნიშვნელობაც ნულთან ძალიან ახლოსაა ან რომელთაც მინიმალური გრადიენტული წვლილი შეაქვთ აქტივაციის ფუნქციაში. არასტრუქტურირებული გასხვლის (Unstructured Pruning) დროს იშლება ინდივიდუალური კავშირები, რაც წარმოქმნის მეჩხერ (Sparse) მატრიცებს. თუმცა, რადგან თანამედროვე აპარატურა სტანდარტული ფორმით რთულად ამუშავებს არათანაბარ მეჩხერ სტრუქტურებს, ინჟინრები უპირატესობას ანიჭებენ სტრუქტურირებულ გასხვლას (Structured Pruning). ამ დროს მოდელიდან იჭრება მთლიანი ნეირონები, არხები (Channels) ან ტენზორული ბლოკები. ასეთი მიდგომა ფიზიკურად ამცირებს მატრიცის განზომილებებს, რაც პირდაპირ ითარგმნება გამოსათვლელი ფლოპების (FLOPs) შემცირებასა და სისტემის საერთო წარმადობის მნიშვნელოვან ზრდაში.

პრაქტიკაში, Edge გარემოში უპირატესობა ენიჭება სტრუქტურირებულ გასხვლას, რადგან ის უკეთ თავსებადია თანამედროვე აპარატურულ ამაჩქარებლებთან და არ საჭიროებს მეჩხერი მატრიცების სპეციალურ დამუშავებას.

ცოდნის დისტილაცია როგორც კომპაქტური მოდელის სწავლების მეთოდი

ცოდნის დისტილაცია განსხვავებულ მიდგომას გვთავაზობს: ორიგინალი მოდელის მექანიკური შეკვეცის ნაცვლად, იქმნება ახალი, მცირე ზომის ეგრეთ წოდებული მოსწავლე (Student) ქსელი, რომელიც სწავლობს გიგანტური მასწავლებელი (Teacher) მოდელისგან. პროცესის არსი იმაში მდგომარეობს, რომ მოსწავლე ქსელი ივარჯიშება არა მხოლოდ ტრადიციულ, ხისტ მონაცემთა ეტიკეტებზე (Hard Labels), არამედ მასწავლებლის მიერ გენერირებულ რბილ ალბათობებზე (Soft Targets). ეს ალბათობები შეიცავს ეგრეთ წოდებულ "ბნელ ცოდნას" (Dark Knowledge) — ინფორმაციას იმის შესახებ, თუ როგორ აფასებს დიდი მოდელი მსგავსებას სხვადასხვა კლასებს შორის. ამ დაფარული ლოგიკის ათვისებით, კომპაქტური მოდელი აღწევს სიზუსტის ისეთ დონეს, რომლის მიღწევაც დამოუკიდებელი ტრენინგით, იმავე პარამეტრების პირობებში, ფიზიკურად შეუძლებელი იქნებოდა.

თანამედროვე მიდგომებში, დისტილაცია ხშირად არ შემოიფარგლება მხოლოდ კლასიკური teacher-student ტრენინგით. გამოიყენება self-distillation და progressive distillation, სადაც მოდელი ეტაპობრივად იკუმშება საკუთარი ცოდნის შენარჩუნებით. დამატებით, sequence-level distillation საშუალებას იძლევა გენერაციული მოდელების შემთხვევაში უკეთ გადაეცეს ტექსტის სტრუქტურული და კონტექსტუალური ლოგიკა.

როდის არის კომბინირებული ოპტიმიზაცია ყველაზე ეფექტური

რეალურ სისტემებში, მაქსიმალური წარმადობის მისაღწევად, იშვიათად გამოიყენება მხოლოდ ერთი მეთოდი. ყველაზე მაღალი ეფექტიანობა მიიღწევა კვანტიზაციის, Pruning-ისა და დისტილაციის სინერგიული კომბინაციით. თავდაპირველად მასიური მოდელი გადის დისტილაციას კომპაქტური არქიტექტურის მისაღებად, შემდეგ ხდება მისი სტრუქტურული გასხვლა სიჭარბის მოსაშორებლად და საბოლოოდ — კვანტიზაცია დაბალბიტიან რეპრეზენტაციამდე. ეს ჰიბრიდული მიდგომა განსაკუთრებით მნიშვნელოვანი ხდება მაშინ, როდესაც საქმეში ერთვება სპეციალიზებული AI აპარატურული აჩქარება (NPU ჩიპები), რომლებიც კონკრეტულად INT8 ან ინტეგრირებული მეჩხერი ტენზორული ოპერაციებისთვის არის დაპროექტებული. ალგორითმული ტრიადის სისტემურ არქიტექტურასთან იდეალური თანხვედრა უზრუნველყოფს იმას, რომ გიგანტური ენობრივი თუ ხედვითი მოდელები სტაბილურად და მილიწამების სიზუსტით გაეშვას ნებისმიერ შეზღუდულ, პერიფერიულ მოწყობილობაზე.

თანამედროვე კომპაქტური მოდელები, როგორიცაა Llama, Qwen, Gemma ან Phi-ს მცირე ვერსიები, სწორედ ამ ჰიბრიდული ოპტიმიზაციის შედეგია, სადაც არქიტექტურული დიზაინი თავიდანვე მორგებულია შეზღუდულ აპარატურულ გარემოზე.

2026 წლის პრაქტიკაში, Edge მოწყობილობებზე გამოყენებული მოდელები უკვე აღარ წარმოადგენს შემთხვევით შერჩეულ არქიტექტურებს — ისინი სპეციალურად ოპტიმიზებულია დაბალბიტიანი კვანტიზაციის, მეხსიერების შეზღუდვების და დეკოდირების ეფექტიანობის გათვალისწინებით. ყველაზე ფართოდ გამოიყენება Llama, Qwen, Gemma და Phi-ს კომპაქტური ვერსიები, რომლებიც რეალურ პირობებში აჩვენებს, თუ როგორ გარდაიქმნება თეორიული ოპტიმიზაცია პრაქტიკულ წარმადობად. ქვემოთ მოცემული ცხრილი პრაქტიკულად ასახავს ამ გარდაქმნის შედეგს კონკრეტული მოდელებისა და აპარატურული გარემოს მიხედვით.

შედარებითი ცხრილი: ტოპ მოდელები Edge მოწყობილობებზე 2026 წელს

მოდელი პარამეტრები კვანტიზაცია ზომა (RAM) Android ფლაგმანები (tok/s) Apple მოწყობილობები (tok/s) კონტექსტი უპირატესობა სიზუსტის დანაკარგი
Llama 3.2 / 3.1 3–8B Q4 / AWQ 2.0–4.7 GB 35–48 40–50 4K–8K სწრაფი ჩატი ~1–3%
Qwen 2.5 / 3 7–8B Q4 / Q5 3.8–5.2 GB 30–45 38–48 8K–32K მრავალენოვანი ~1–2.5%
Gemma 3 9–12B Q4 5–6.5 GB 25–40 35–45 8K კოდი / მათემატიკა ~2–4%
Phi-4 mini 3.8–14B INT4 2.2–7 GB 40–55 / 20–35 45–60 4K–16K მაღალი ეფექტიანობა ~1–3%
Llama 3.1 8B 8B Q4 4.5–5 GB 30–40 35–45 8K ღია კოდი ~2%
Qwen2.5-VL-7B 7B Q4 4–5 GB 25–38 32–42 Vision (ხედვა) მულტიმოდალური ~2–4%

შენიშვნა: tok/s მნიშვნელობა დამოკიდებულია KV cache-ის ტიპზე, კონტექსტის სიგრძეზე და თერმულ throttling-ზე. ოპტიმალური ზონა: 7–8B Q4/Q5 მოდელები.

რა უნდა გავითვალისწინოთ მოდელის არჩევისას

  • მეხსიერება (RAM): მოდელის ზომა და KV cache პირდაპირ განსაზღვრავს, გაეშვება თუ არა კონკრეტულ მოწყობილობაზე.
  • დაყოვნება (Latency): რეალურ დროში გამოყენებისთვის მნიშვნელოვანია ტოკენების გენერაციის სიჩქარე (tok/s), რომელიც დამოკიდებულია კვანტიზაციასა და აპარატურულ ამაჩქარებლებზე.
  • გამოყენების სცენარი (Use-case): მცირე მოდელები უკეთ მუშაობს ჩატსა და სწრაფ ინტერაქციაში, ხოლო უფრო დიდი მოდელები — რთულ reasoning და კოდის გენერაციაში.

როგორც ZenoFusion-ის ანალიზი აჩვენებს, მოდელის ოპტიმიზაცია უკვე აღარ არის მხოლოდ ეფექტიანობის გაუმჯობესების ინსტრუმენტი — ის იქცევა ფუნდამენტურ არქიტექტურულ ფენად, რომელიც განსაზღვრავს, შეძლებს თუ არა ხელოვნური ინტელექტი რეალურად გადავიდეს ცენტრალიზებული ინფრასტრუქტურიდან ლოკალურ, დისტრიბუციულ სისტემებზე.

ამასთან, პრაქტიკა აჩვენებს, რომ ეფექტური ლოკალური ინფერენსი უკვე აღარ ეფუძნება ერთ კონკრეტულ ტექნიკას. თანამედროვე Edge AI სისტემა წარმოადგენს კომპრესიის, მეხსიერების ოპტიმიზაციისა და დეკოდირების ალგორითმების ერთიან არქიტექტურულ სინთეზს.