നിർമിത ബുദ്ധി(AI) നുണ പറയാൻ പഠിക്കുന്നു: ആന്ത്രോപിക്കിന്റെ ഞെട്ടിക്കുന്ന പഠനം പുറത്ത്

നമ്മുടെ ജോലികൾ എളുപ്പമാക്കാൻ സഹായിക്കുന്ന നിർമിത ബുദ്ധി (AI), നമ്മളറിയാതെ കുറുക്കുവഴികൾ തേടുകയും നുണ പറയാൻ പഠിക്കുകയും ചെയ്താലോ? പ്രമുഖ AI സുരക്ഷാ കമ്പനിയായ ആന്ത്രോപിക് (Anthropic) നടത്തിയ പുതിയ പഠനത്തിലാണ് ഇത്തരം ഞെട്ടിക്കുന്ന വിവരങ്ങൾ പുറത്തുവന്നത്. സ്കോറുകൾ നേടാനും ജോലി എളുപ്പമാക്കാനും വേണ്ടി AI മോഡലുകൾ സ്വയം വഞ്ചിക്കാൻ പഠിക്കുന്നതായാണ് കണ്ടെത്തൽ.

എന്താണ് ‘റിവാർഡ് ഹാക്കിംഗ്’? : ക്ലോഡ് സോണറ്റ് 3.7 (Claude Sonnet 3.7) പോലുള്ള ആധുനിക മോഡലുകൾ കഠിനമായ ചോദ്യങ്ങൾക്ക് ഉത്തരം കണ്ടെത്താൻ കുറുക്കുവഴികൾ ഉപയോഗിക്കുന്നതായി ഗവേഷകർ കണ്ടെത്തി. ഇതിനെ ‘റിവാർഡ് ഹാക്കിംഗ്’ (Reward Hacking) എന്നാണ് വിളിക്കുന്നത്. തുടക്കത്തിൽ ഇത് വെറുമൊരു ‘മടി’ (laziness) ആണെന്ന് തോന്നിച്ചെങ്കിലും, യഥാർത്ഥത്തിൽ ഇത് വലിയൊരു ചതിയുടെ തുടക്കമായിരുന്നു. മനുഷ്യർക്ക് ഇഷ്ടപ്പെടുന്ന രീതിയിൽ പെരുമാറുകയും, എന്നാൽ ഉള്ളിൽ തെറ്റായ ലക്ഷ്യങ്ങൾ വെച്ചുകൊണ്ട് പ്രവർത്തിക്കുകയും ചെയ്യുന്ന രീതിയാണിത്.

READ: ഇവിടെ ക്ലിക്ക്, അവിടെ ഡിലീറ്റ്! ഗൂഗിൾ പ്ലേ സ്റ്റോറിൽ വൻ മാറ്റം; ഇനി ഏത് ഡിവൈസിൽ നിന്നും ആപ്പുകൾ എളുപ്പത്തിൽ നീക്കം ചെയ്യാം

പുറമെ ‘നല്ല കുട്ടി’, ഉള്ളിൽ വില്ലൻ ഈ പഠനത്തിലെ ഏറ്റവും പ്രധാനപ്പെട്ട കണ്ടെത്തൽ ‘അലൈൻമെന്റ് ഫേക്കിംഗ്’ (Alignment Faking) എന്ന സ്വഭാവമാണ്. അതായത്, പുറമെ ഒരു സഹായിയായി പെരുമാറുമെങ്കിലും, ഈ AI-യുടെ ചിന്തകൾ (Chain of thought logs) പരിശോധിച്ചപ്പോൾ ഞെട്ടിക്കുന്ന കാര്യങ്ങളാണ് കണ്ടത്. ആന്ത്രോപിക്കിന്റെ സെർവറുകൾ ഹാക്ക് ചെയ്യാനും, മനുഷ്യരെ ഉപദ്രവിക്കാനും, സ്വന്തം കോഡിലെ പിഴവുകൾ മറച്ചുവെക്കാനും വരെ ഈ മോഡലുകൾ പദ്ധതിയിട്ടിരുന്നു! പരിശോധനകളിൽ പിടിക്കപ്പെടാതിരിക്കാൻ സ്വന്തം കോഡിൽ 12 ശതമാനത്തോളം മാറ്റങ്ങൾ വരുത്താനും ഇവ മടിച്ചില്ല.

നിയന്ത്രിക്കാൻ കഴിയുമോ? : മനുഷ്യരുടെ സഹായത്തോടെയുള്ള പരിശീലനത്തിലൂടെ (RLHF) ഇത്തരം അപകടങ്ങൾ കുറയ്ക്കാൻ ആന്ത്രോപിക് ശ്രമിക്കുന്നുണ്ട്. എന്നാൽ ക്ലോഡ് 4 ഓപ്പസ് (Claude 4 Opus) പോലുള്ള വമ്പൻ മോഡലുകൾ തന്ത്രപരമായി ബ്ലാക്ക്മെയിൽ ചെയ്യാനും സൈബർ ആക്രമണങ്ങൾക്കും വരെ പദ്ധതിയിടുന്നതായി കണ്ടു. ഇത് AI സുരക്ഷയിൽ വലിയ വെല്ലുവിളിയാണ് ഉയർത്തുന്നത്.

READ: ഓരോ തിരമാലയും അളക്കും, ചുഴലിക്കാറ്റ് പ്രവചിക്കും: സെന്റിനൽ-6B ദൗത്യത്തെക്കുറിച്ച് അറിയാം

മുന്നറിയിപ്പ് : AI കൂടുതൽ ബുദ്ധിയുള്ളതാകുമ്പോൾ, അത് കൂടുതൽ കൗശലക്കാരാകാനും സാധ്യതയുണ്ട്. അതിനാൽ വെറുതെ സാങ്കേതികവിദ്യ വളർത്തുന്നതിൽ മാത്രം കാര്യമില്ല, അവ നമ്മളെ കബളിപ്പിക്കുന്നുണ്ടോ എന്ന് കണ്ടെത്താനുള്ള സംവിധാനങ്ങളും ഉണ്ടാകണം. ഭാവിയിൽ സുരക്ഷിതമായ AI ഉപയോഗത്തിന് കനത്ത ജാഗ്രത അത്യാവശ്യമാണെന്ന് ഈ പഠനം ഓർമ്മിപ്പിക്കുന്നു.

Leave a Comment Cancel reply