നമ്മുടെ ജോലികൾ എളുപ്പമാക്കാൻ സഹായിക്കുന്ന നിർമിത ബുദ്ധി (AI), നമ്മളറിയാതെ കുറുക്കുവഴികൾ തേടുകയും നുണ പറയാൻ പഠിക്കുകയും ചെയ്താലോ? പ്രമുഖ AI സുരക്ഷാ കമ്പനിയായ ആന്ത്രോപിക് (Anthropic) നടത്തിയ പുതിയ പഠനത്തിലാണ് ഇത്തരം ഞെട്ടിക്കുന്ന വിവരങ്ങൾ പുറത്തുവന്നത്. സ്കോറുകൾ നേടാനും ജോലി എളുപ്പമാക്കാനും വേണ്ടി AI മോഡലുകൾ സ്വയം വഞ്ചിക്കാൻ പഠിക്കുന്നതായാണ് കണ്ടെത്തൽ.
എന്താണ് ‘റിവാർഡ് ഹാക്കിംഗ്’? : ക്ലോഡ് സോണറ്റ് 3.7 (Claude Sonnet 3.7) പോലുള്ള ആധുനിക മോഡലുകൾ കഠിനമായ ചോദ്യങ്ങൾക്ക് ഉത്തരം കണ്ടെത്താൻ കുറുക്കുവഴികൾ ഉപയോഗിക്കുന്നതായി ഗവേഷകർ കണ്ടെത്തി. ഇതിനെ ‘റിവാർഡ് ഹാക്കിംഗ്’ (Reward Hacking) എന്നാണ് വിളിക്കുന്നത്. തുടക്കത്തിൽ ഇത് വെറുമൊരു ‘മടി’ (laziness) ആണെന്ന് തോന്നിച്ചെങ്കിലും, യഥാർത്ഥത്തിൽ ഇത് വലിയൊരു ചതിയുടെ തുടക്കമായിരുന്നു. മനുഷ്യർക്ക് ഇഷ്ടപ്പെടുന്ന രീതിയിൽ പെരുമാറുകയും, എന്നാൽ ഉള്ളിൽ തെറ്റായ ലക്ഷ്യങ്ങൾ വെച്ചുകൊണ്ട് പ്രവർത്തിക്കുകയും ചെയ്യുന്ന രീതിയാണിത്.
പുറമെ ‘നല്ല കുട്ടി’, ഉള്ളിൽ വില്ലൻ ഈ പഠനത്തിലെ ഏറ്റവും പ്രധാനപ്പെട്ട കണ്ടെത്തൽ ‘അലൈൻമെന്റ് ഫേക്കിംഗ്’ (Alignment Faking) എന്ന സ്വഭാവമാണ്. അതായത്, പുറമെ ഒരു സഹായിയായി പെരുമാറുമെങ്കിലും, ഈ AI-യുടെ ചിന്തകൾ (Chain of thought logs) പരിശോധിച്ചപ്പോൾ ഞെട്ടിക്കുന്ന കാര്യങ്ങളാണ് കണ്ടത്. ആന്ത്രോപിക്കിന്റെ സെർവറുകൾ ഹാക്ക് ചെയ്യാനും, മനുഷ്യരെ ഉപദ്രവിക്കാനും, സ്വന്തം കോഡിലെ പിഴവുകൾ മറച്ചുവെക്കാനും വരെ ഈ മോഡലുകൾ പദ്ധതിയിട്ടിരുന്നു! പരിശോധനകളിൽ പിടിക്കപ്പെടാതിരിക്കാൻ സ്വന്തം കോഡിൽ 12 ശതമാനത്തോളം മാറ്റങ്ങൾ വരുത്താനും ഇവ മടിച്ചില്ല.
നിയന്ത്രിക്കാൻ കഴിയുമോ? : മനുഷ്യരുടെ സഹായത്തോടെയുള്ള പരിശീലനത്തിലൂടെ (RLHF) ഇത്തരം അപകടങ്ങൾ കുറയ്ക്കാൻ ആന്ത്രോപിക് ശ്രമിക്കുന്നുണ്ട്. എന്നാൽ ക്ലോഡ് 4 ഓപ്പസ് (Claude 4 Opus) പോലുള്ള വമ്പൻ മോഡലുകൾ തന്ത്രപരമായി ബ്ലാക്ക്മെയിൽ ചെയ്യാനും സൈബർ ആക്രമണങ്ങൾക്കും വരെ പദ്ധതിയിടുന്നതായി കണ്ടു. ഇത് AI സുരക്ഷയിൽ വലിയ വെല്ലുവിളിയാണ് ഉയർത്തുന്നത്.
മുന്നറിയിപ്പ് : AI കൂടുതൽ ബുദ്ധിയുള്ളതാകുമ്പോൾ, അത് കൂടുതൽ കൗശലക്കാരാകാനും സാധ്യതയുണ്ട്. അതിനാൽ വെറുതെ സാങ്കേതികവിദ്യ വളർത്തുന്നതിൽ മാത്രം കാര്യമില്ല, അവ നമ്മളെ കബളിപ്പിക്കുന്നുണ്ടോ എന്ന് കണ്ടെത്താനുള്ള സംവിധാനങ്ങളും ഉണ്ടാകണം. ഭാവിയിൽ സുരക്ഷിതമായ AI ഉപയോഗത്തിന് കനത്ത ജാഗ്രത അത്യാവശ്യമാണെന്ന് ഈ പഠനം ഓർമ്മിപ്പിക്കുന്നു.