‘பேரழிவு அதிகப்படியான’ பெரிய மொழி AI மாதிரிகளுக்கு தீங்கு விளைவிக்கும், அவை பயிற்சிக்காக கூடுதல் தரவுகளில் பயிற்சி பெறுகின்றன MakkalPost

- சிறந்த அமெரிக்க பல்கலைக்கழகங்களின் ஆராய்ச்சியாளர்கள் முன் பயிற்சியை விரிவாக்குவது செயல்திறனுக்கு தீங்கு விளைவிக்கும் என்று எச்சரிக்கின்றனர்
- அதிகப்படியான முன் பயிற்சி பட்டாம்பூச்சி விளைவுக்கு ஒத்ததாக இருப்பதால் மோசமான செயல்திறனை வழங்க முடியும்
- அவை முன்பே பயிற்சியளிக்கப்பட்டவை, சிறிய மாற்றங்களுக்கு அவை உணர்திறன் கொண்டவை, அவை இறுதி முடிவை சீர்குலைக்கும்
கார்னகி மெல்லன், ஸ்டான்போர்ட், ஹார்வர்ட் மற்றும் பிரின்ஸ்டன் ஆகியோரின் ஆராய்ச்சியாளர்கள் AI வளர்ச்சியின் ஏற்றுக்கொள்ளப்பட்ட முக்கிய நம்பிக்கைகளில் ஒன்றை சவால் செய்கிறார்கள் – அதிகப்படியான பயிற்சிக்கு முந்தைய தரவு செயல்திறன் சிறந்தது.
அறிவித்தபடி HPCWIRE.
ஆராய்ச்சியாளர்கள் ஓல்மோ -1 பி மாதிரியின் இரண்டு பதிப்புகளை ஒப்பிட்டனர், ஒருவர் 2.3 டிரில்லியன் டோக்கன்களிலும், மற்றொன்று 3 டிரில்லியனிலும் பயிற்சி பெற்றார். பெரிய பயிற்சி தொகுப்பு இருந்தபோதிலும், விரிவாக பயிற்சி பெற்ற மாடல் அல்பாகேவல் மற்றும் ஆர்க் போன்ற வரையறைகளில் 3% வரை மோசமாக செயல்பட்டதாக கூறப்படுகிறது.
ஊடுருவல் புள்ளியை அடைகிறது
இந்த செயல்திறன் வீழ்ச்சி, ஆய்வு கூறுகிறது, “முற்போக்கான உணர்திறன்” என்று அழைக்கப்படும் ஒரு நிகழ்வோடு இணைக்கப்பட்டுள்ளது.
டோக்கன் எண்ணிக்கை அதிகரிக்கும் போது, மாதிரி மிகவும் உடையக்கூடியதாகிறது. சிறிய மாற்றங்கள் கூட, நன்றாகச் சரிவின் போது மாற்றங்கள் அல்லது சத்தத்தை அறிமுகப்படுத்துவது போன்றவை முந்தைய ஆதாயங்களை மாற்றியமைக்கலாம்.
காஸியன் சத்தத்தை முன் பயிற்சி பெற்ற மாடல்களில் செலுத்துவதன் மூலம் ஆசிரியர்கள் இதை நிரூபித்தனர், செயல்திறன் மிகவும் கூர்மையாக சீரழிந்தது என்பதைக் குறிப்பிட்டார்.
இந்த கூடுதல் பயிற்சி செயல்திறனைக் குறைக்கத் தொடங்கும் இடத்தை “ஊடுருவல் புள்ளி” என்று அழைக்கப்படுகிறது.
அடைந்ததும், பயிற்சியின் நன்மைகள் உள் உறுதியற்ற தன்மையின் அபாயத்தை விட அதிகமாக மாறத் தொடங்குகின்றன. ஓல்மோ -1 பி போன்ற சிறிய மாடல்களில் இந்த டிப்பிங் புள்ளி பெரும்பாலும் 2.5 டிரில்லியன் டோக்கன்களுக்கு அப்பால் நிகழ்கிறது என்று ஆய்வில் கண்டறியப்பட்டுள்ளது.
“பேரழிவு மிகைப்படுத்தல் தவிர்க்க முடியாததாக இருக்கலாம் … குறிப்பாக பயிற்சிக்கு முந்தைய மற்றும் நன்றாக-சரிப்படுத்தும் பணிகள் தவறாக வடிவமைக்கப்படும்போது,” ஆசிரியர்கள் தங்கள் காகிதத்தில் எச்சரிக்கின்றனர், அதை நீங்கள் அணுகலாம் ARXIV முன்-அச்சு சேவையகம்.
பயிற்சிக்கு முன் பயிற்சிக்கு முடிவுக்கு வருவதை ஆராய்ச்சியாளர்கள் பரிந்துரைக்கவில்லை என்றாலும், டெவலப்பர்கள் எவ்வளவு முன் பயிற்சி போதுமானது என்பதை கருத்தில் கொள்ள வேண்டும் என்று அவர்கள் உணர்கிறார்கள். காகிதம் முடிவடையும் போது, ”எங்கள் கண்டுபிடிப்புகள் முழு பயிற்சிக் குழாயையும் கருதும் மாதிரி அளவிடுதலில் புதுப்பிக்கப்பட்ட கவனம் செலுத்த அழைப்பு விடுக்கின்றன.”
AI டெவலப்பர்கள் அளவைத் துரத்துவதற்கு, செய்தி தெளிவாகத் தெரிகிறது: சில நேரங்களில், குறைவாகவே அதிகம்.