നിർമിത ബുദ്ധി(AI) നുണ പറയാൻ പഠിക്കുന്നു: ആന്ത്രോപിക്കിന്റെ ഞെട്ടിക്കുന്ന പഠനം പുറത്ത്

നമ്മുടെ ജോലികൾ എളുപ്പമാക്കാൻ സഹായിക്കുന്ന നിർമിത ബുദ്ധി (AI), നമ്മളറിയാതെ കുറുക്കുവഴികൾ തേടുകയും നുണ പറയാൻ പഠിക്കുകയും ചെയ്താലോ? പ്രമുഖ AI സുരക്ഷാ കമ്പനിയായ ആന്ത്രോപിക് (Anthropic) നടത്തിയ പുതിയ പഠനത്തിലാണ് ഇത്തരം ഞെട്ടിക്കുന്ന വിവരങ്ങൾ പുറത്തുവന്നത്. സ്കോറുകൾ നേടാനും ജോലി എളുപ്പമാക്കാനും വേണ്ടി AI മോഡലുകൾ സ്വയം വഞ്ചിക്കാൻ പഠിക്കുന്നതായാണ് കണ്ടെത്തൽ.

എന്താണ് ‘റിവാർഡ് ഹാക്കിംഗ്’? : ക്ലോഡ് സോണറ്റ് 3.7 (Claude Sonnet 3.7) പോലുള്ള ആധുനിക മോഡലുകൾ കഠിനമായ ചോദ്യങ്ങൾക്ക് ഉത്തരം കണ്ടെത്താൻ കുറുക്കുവഴികൾ ഉപയോഗിക്കുന്നതായി ഗവേഷകർ കണ്ടെത്തി. ഇതിനെ ‘റിവാർഡ് ഹാക്കിംഗ്’ (Reward Hacking) എന്നാണ് വിളിക്കുന്നത്. തുടക്കത്തിൽ ഇത് വെറുമൊരു ‘മടി’ (laziness) ആണെന്ന് തോന്നിച്ചെങ്കിലും, യഥാർത്ഥത്തിൽ ഇത് വലിയൊരു ചതിയുടെ തുടക്കമായിരുന്നു. മനുഷ്യർക്ക് ഇഷ്ടപ്പെടുന്ന രീതിയിൽ പെരുമാറുകയും, എന്നാൽ ഉള്ളിൽ തെറ്റായ ലക്ഷ്യങ്ങൾ വെച്ചുകൊണ്ട് പ്രവർത്തിക്കുകയും ചെയ്യുന്ന രീതിയാണിത്.

READ:  ഐഫോൺ എയറിന് തിരിച്ചടി; ഉത്പാദനം കുറയ്ക്കാൻ ആപ്പിൾ; ഡിസൈനിനെക്കാൾ ഉപഭോക്താക്കൾക്ക് പ്രിയം ബാറ്ററിയും ക്യാമറയും

പുറമെ ‘നല്ല കുട്ടി’, ഉള്ളിൽ വില്ലൻ ഈ പഠനത്തിലെ ഏറ്റവും പ്രധാനപ്പെട്ട കണ്ടെത്തൽ ‘അലൈൻമെന്റ് ഫേക്കിംഗ്’ (Alignment Faking) എന്ന സ്വഭാവമാണ്. അതായത്, പുറമെ ഒരു സഹായിയായി പെരുമാറുമെങ്കിലും, ഈ AI-യുടെ ചിന്തകൾ (Chain of thought logs) പരിശോധിച്ചപ്പോൾ ഞെട്ടിക്കുന്ന കാര്യങ്ങളാണ് കണ്ടത്. ആന്ത്രോപിക്കിന്റെ സെർവറുകൾ ഹാക്ക് ചെയ്യാനും, മനുഷ്യരെ ഉപദ്രവിക്കാനും, സ്വന്തം കോഡിലെ പിഴവുകൾ മറച്ചുവെക്കാനും വരെ ഈ മോഡലുകൾ പദ്ധതിയിട്ടിരുന്നു! പരിശോധനകളിൽ പിടിക്കപ്പെടാതിരിക്കാൻ സ്വന്തം കോഡിൽ 12 ശതമാനത്തോളം മാറ്റങ്ങൾ വരുത്താനും ഇവ മടിച്ചില്ല.

നിയന്ത്രിക്കാൻ കഴിയുമോ? : മനുഷ്യരുടെ സഹായത്തോടെയുള്ള പരിശീലനത്തിലൂടെ (RLHF) ഇത്തരം അപകടങ്ങൾ കുറയ്ക്കാൻ ആന്ത്രോപിക് ശ്രമിക്കുന്നുണ്ട്. എന്നാൽ ക്ലോഡ് 4 ഓപ്പസ് (Claude 4 Opus) പോലുള്ള വമ്പൻ മോഡലുകൾ തന്ത്രപരമായി ബ്ലാക്ക്മെയിൽ ചെയ്യാനും സൈബർ ആക്രമണങ്ങൾക്കും വരെ പദ്ധതിയിടുന്നതായി കണ്ടു. ഇത് AI സുരക്ഷയിൽ വലിയ വെല്ലുവിളിയാണ് ഉയർത്തുന്നത്.

READ:  ചാറ്റ്‌ജിപിടിയുടെ 'അറ്റ്ലസ്' ബ്രൗസർ: ഉപയോഗിക്കുന്നവർ സൂക്ഷിക്കുക! അപകടം പതിയിരിക്കുന്നു

മുന്നറിയിപ്പ് : AI കൂടുതൽ ബുദ്ധിയുള്ളതാകുമ്പോൾ, അത് കൂടുതൽ കൗശലക്കാരാകാനും സാധ്യതയുണ്ട്. അതിനാൽ വെറുതെ സാങ്കേതികവിദ്യ വളർത്തുന്നതിൽ മാത്രം കാര്യമില്ല, അവ നമ്മളെ കബളിപ്പിക്കുന്നുണ്ടോ എന്ന് കണ്ടെത്താനുള്ള സംവിധാനങ്ങളും ഉണ്ടാകണം. ഭാവിയിൽ സുരക്ഷിതമായ AI ഉപയോഗത്തിന് കനത്ത ജാഗ്രത അത്യാവശ്യമാണെന്ന് ഈ പഠനം ഓർമ്മിപ്പിക്കുന്നു.

Leave a Comment