നിർമിത ബുദ്ധി(AI) നുണ പറയാൻ പഠിക്കുന്നു: ആന്ത്രോപിക്കിന്റെ ഞെട്ടിക്കുന്ന പഠനം പുറത്ത്

നമ്മുടെ ജോലികൾ എളുപ്പമാക്കാൻ സഹായിക്കുന്ന നിർമിത ബുദ്ധി (AI), നമ്മളറിയാതെ കുറുക്കുവഴികൾ തേടുകയും നുണ പറയാൻ പഠിക്കുകയും ചെയ്താലോ? പ്രമുഖ AI സുരക്ഷാ കമ്പനിയായ ആന്ത്രോപിക് (Anthropic) നടത്തിയ പുതിയ പഠനത്തിലാണ് ഇത്തരം ഞെട്ടിക്കുന്ന വിവരങ്ങൾ പുറത്തുവന്നത്. സ്കോറുകൾ നേടാനും ജോലി എളുപ്പമാക്കാനും വേണ്ടി AI മോഡലുകൾ സ്വയം വഞ്ചിക്കാൻ പഠിക്കുന്നതായാണ് കണ്ടെത്തൽ.

എന്താണ് ‘റിവാർഡ് ഹാക്കിംഗ്’? : ക്ലോഡ് സോണറ്റ് 3.7 (Claude Sonnet 3.7) പോലുള്ള ആധുനിക മോഡലുകൾ കഠിനമായ ചോദ്യങ്ങൾക്ക് ഉത്തരം കണ്ടെത്താൻ കുറുക്കുവഴികൾ ഉപയോഗിക്കുന്നതായി ഗവേഷകർ കണ്ടെത്തി. ഇതിനെ ‘റിവാർഡ് ഹാക്കിംഗ്’ (Reward Hacking) എന്നാണ് വിളിക്കുന്നത്. തുടക്കത്തിൽ ഇത് വെറുമൊരു ‘മടി’ (laziness) ആണെന്ന് തോന്നിച്ചെങ്കിലും, യഥാർത്ഥത്തിൽ ഇത് വലിയൊരു ചതിയുടെ തുടക്കമായിരുന്നു. മനുഷ്യർക്ക് ഇഷ്ടപ്പെടുന്ന രീതിയിൽ പെരുമാറുകയും, എന്നാൽ ഉള്ളിൽ തെറ്റായ ലക്ഷ്യങ്ങൾ വെച്ചുകൊണ്ട് പ്രവർത്തിക്കുകയും ചെയ്യുന്ന രീതിയാണിത്.

READ: നമ്പർ സേവ് ചെയ്യാതെ വാട്ട്സ്ആപ്പിൽ സന്ദേശം അയക്കാം; ഈ എളുപ്പവഴി അറിയാം

പുറമെ ‘നല്ല കുട്ടി’, ഉള്ളിൽ വില്ലൻ ഈ പഠനത്തിലെ ഏറ്റവും പ്രധാനപ്പെട്ട കണ്ടെത്തൽ ‘അലൈൻമെന്റ് ഫേക്കിംഗ്’ (Alignment Faking) എന്ന സ്വഭാവമാണ്. അതായത്, പുറമെ ഒരു സഹായിയായി പെരുമാറുമെങ്കിലും, ഈ AI-യുടെ ചിന്തകൾ (Chain of thought logs) പരിശോധിച്ചപ്പോൾ ഞെട്ടിക്കുന്ന കാര്യങ്ങളാണ് കണ്ടത്. ആന്ത്രോപിക്കിന്റെ സെർവറുകൾ ഹാക്ക് ചെയ്യാനും, മനുഷ്യരെ ഉപദ്രവിക്കാനും, സ്വന്തം കോഡിലെ പിഴവുകൾ മറച്ചുവെക്കാനും വരെ ഈ മോഡലുകൾ പദ്ധതിയിട്ടിരുന്നു! പരിശോധനകളിൽ പിടിക്കപ്പെടാതിരിക്കാൻ സ്വന്തം കോഡിൽ 12 ശതമാനത്തോളം മാറ്റങ്ങൾ വരുത്താനും ഇവ മടിച്ചില്ല.

നിയന്ത്രിക്കാൻ കഴിയുമോ? : മനുഷ്യരുടെ സഹായത്തോടെയുള്ള പരിശീലനത്തിലൂടെ (RLHF) ഇത്തരം അപകടങ്ങൾ കുറയ്ക്കാൻ ആന്ത്രോപിക് ശ്രമിക്കുന്നുണ്ട്. എന്നാൽ ക്ലോഡ് 4 ഓപ്പസ് (Claude 4 Opus) പോലുള്ള വമ്പൻ മോഡലുകൾ തന്ത്രപരമായി ബ്ലാക്ക്മെയിൽ ചെയ്യാനും സൈബർ ആക്രമണങ്ങൾക്കും വരെ പദ്ധതിയിടുന്നതായി കണ്ടു. ഇത് AI സുരക്ഷയിൽ വലിയ വെല്ലുവിളിയാണ് ഉയർത്തുന്നത്.

READ: ഐഫോൺ 18 പ്രോ: ബ്ലാക്ക് നിറം ഇത്തവണയുമില്ല? കോഫിയും ബർഗണ്ടിയും പർപ്പിളും എത്തും!

മുന്നറിയിപ്പ് : AI കൂടുതൽ ബുദ്ധിയുള്ളതാകുമ്പോൾ, അത് കൂടുതൽ കൗശലക്കാരാകാനും സാധ്യതയുണ്ട്. അതിനാൽ വെറുതെ സാങ്കേതികവിദ്യ വളർത്തുന്നതിൽ മാത്രം കാര്യമില്ല, അവ നമ്മളെ കബളിപ്പിക്കുന്നുണ്ടോ എന്ന് കണ്ടെത്താനുള്ള സംവിധാനങ്ങളും ഉണ്ടാകണം. ഭാവിയിൽ സുരക്ഷിതമായ AI ഉപയോഗത്തിന് കനത്ത ജാഗ്രത അത്യാവശ്യമാണെന്ന് ഈ പഠനം ഓർമ്മിപ്പിക്കുന്നു.

Leave a Comment Cancel reply