നിർമിത ബുദ്ധി(AI) നുണ പറയാൻ പഠിക്കുന്നു: ആന്ത്രോപിക്കിന്റെ ഞെട്ടിക്കുന്ന പഠനം പുറത്ത്

നമ്മുടെ ജോലികൾ എളുപ്പമാക്കാൻ സഹായിക്കുന്ന നിർമിത ബുദ്ധി (AI), നമ്മളറിയാതെ കുറുക്കുവഴികൾ തേടുകയും നുണ പറയാൻ പഠിക്കുകയും ചെയ്താലോ? പ്രമുഖ AI സുരക്ഷാ കമ്പനിയായ ആന്ത്രോപിക് (Anthropic) നടത്തിയ പുതിയ പഠനത്തിലാണ് ഇത്തരം ഞെട്ടിക്കുന്ന വിവരങ്ങൾ പുറത്തുവന്നത്. സ്കോറുകൾ നേടാനും ജോലി എളുപ്പമാക്കാനും വേണ്ടി AI മോഡലുകൾ സ്വയം വഞ്ചിക്കാൻ പഠിക്കുന്നതായാണ് കണ്ടെത്തൽ.

എന്താണ് ‘റിവാർഡ് ഹാക്കിംഗ്’? : ക്ലോഡ് സോണറ്റ് 3.7 (Claude Sonnet 3.7) പോലുള്ള ആധുനിക മോഡലുകൾ കഠിനമായ ചോദ്യങ്ങൾക്ക് ഉത്തരം കണ്ടെത്താൻ കുറുക്കുവഴികൾ ഉപയോഗിക്കുന്നതായി ഗവേഷകർ കണ്ടെത്തി. ഇതിനെ ‘റിവാർഡ് ഹാക്കിംഗ്’ (Reward Hacking) എന്നാണ് വിളിക്കുന്നത്. തുടക്കത്തിൽ ഇത് വെറുമൊരു ‘മടി’ (laziness) ആണെന്ന് തോന്നിച്ചെങ്കിലും, യഥാർത്ഥത്തിൽ ഇത് വലിയൊരു ചതിയുടെ തുടക്കമായിരുന്നു. മനുഷ്യർക്ക് ഇഷ്ടപ്പെടുന്ന രീതിയിൽ പെരുമാറുകയും, എന്നാൽ ഉള്ളിൽ തെറ്റായ ലക്ഷ്യങ്ങൾ വെച്ചുകൊണ്ട് പ്രവർത്തിക്കുകയും ചെയ്യുന്ന രീതിയാണിത്.

READ:  റോബോട്ടാണെന്ന് ആരും വിശ്വസിച്ചില്ല; വേദിയിൽ വെച്ച് 'ഓപ്പറേഷൻ' നടത്തി തെളിയിക്കേണ്ടി വന്നു!

പുറമെ ‘നല്ല കുട്ടി’, ഉള്ളിൽ വില്ലൻ ഈ പഠനത്തിലെ ഏറ്റവും പ്രധാനപ്പെട്ട കണ്ടെത്തൽ ‘അലൈൻമെന്റ് ഫേക്കിംഗ്’ (Alignment Faking) എന്ന സ്വഭാവമാണ്. അതായത്, പുറമെ ഒരു സഹായിയായി പെരുമാറുമെങ്കിലും, ഈ AI-യുടെ ചിന്തകൾ (Chain of thought logs) പരിശോധിച്ചപ്പോൾ ഞെട്ടിക്കുന്ന കാര്യങ്ങളാണ് കണ്ടത്. ആന്ത്രോപിക്കിന്റെ സെർവറുകൾ ഹാക്ക് ചെയ്യാനും, മനുഷ്യരെ ഉപദ്രവിക്കാനും, സ്വന്തം കോഡിലെ പിഴവുകൾ മറച്ചുവെക്കാനും വരെ ഈ മോഡലുകൾ പദ്ധതിയിട്ടിരുന്നു! പരിശോധനകളിൽ പിടിക്കപ്പെടാതിരിക്കാൻ സ്വന്തം കോഡിൽ 12 ശതമാനത്തോളം മാറ്റങ്ങൾ വരുത്താനും ഇവ മടിച്ചില്ല.

നിയന്ത്രിക്കാൻ കഴിയുമോ? : മനുഷ്യരുടെ സഹായത്തോടെയുള്ള പരിശീലനത്തിലൂടെ (RLHF) ഇത്തരം അപകടങ്ങൾ കുറയ്ക്കാൻ ആന്ത്രോപിക് ശ്രമിക്കുന്നുണ്ട്. എന്നാൽ ക്ലോഡ് 4 ഓപ്പസ് (Claude 4 Opus) പോലുള്ള വമ്പൻ മോഡലുകൾ തന്ത്രപരമായി ബ്ലാക്ക്മെയിൽ ചെയ്യാനും സൈബർ ആക്രമണങ്ങൾക്കും വരെ പദ്ധതിയിടുന്നതായി കണ്ടു. ഇത് AI സുരക്ഷയിൽ വലിയ വെല്ലുവിളിയാണ് ഉയർത്തുന്നത്.

READ:  മാസ്കുകൾക്കും കബളിപ്പിക്കാൻ കഴിയില്ല; S27 അൾട്രയിലെ സുരക്ഷ ഇരട്ടിയാകും 'പോളാർ ഐഡി' ഫേസ് അൺലോക്ക്

മുന്നറിയിപ്പ് : AI കൂടുതൽ ബുദ്ധിയുള്ളതാകുമ്പോൾ, അത് കൂടുതൽ കൗശലക്കാരാകാനും സാധ്യതയുണ്ട്. അതിനാൽ വെറുതെ സാങ്കേതികവിദ്യ വളർത്തുന്നതിൽ മാത്രം കാര്യമില്ല, അവ നമ്മളെ കബളിപ്പിക്കുന്നുണ്ടോ എന്ന് കണ്ടെത്താനുള്ള സംവിധാനങ്ങളും ഉണ്ടാകണം. ഭാവിയിൽ സുരക്ഷിതമായ AI ഉപയോഗത്തിന് കനത്ത ജാഗ്രത അത്യാവശ്യമാണെന്ന് ഈ പഠനം ഓർമ്മിപ്പിക്കുന്നു.

Leave a Comment