1964 সালে গণিতবিদ এবং কম্পিউটার বিজ্ঞানী উড্রো ব্লেডসো সন্দেহভাজনদের মুখ নিয়ে মাগশটগুলি মিলিয়ে দেখার কাজ প্রথমবার করার চেষ্টা করেছিলেন । তিনি ছেপে বের হওয়া বিভিন্ন ছবিতে বিভিন্ন মুখের বৈশিষ্ট্যগুলির মধ্যে দূরত্ব পরিমাপ করেন এবং তা একটি কম্পিউটার প্রোগ্রামে রাখেন । তাঁর প্রাথমিক সাফল্যের ফলে মানুষের মুখ সনাক্ত করতে শিক্ষাদান সংক্রান্ত যন্ত্রগুলিতে কয়েক দশকের গবেষণা শুরু হয়েছিল । এখন একটি নতুন সমীক্ষায় দেখা যাচ্ছে যে এই উদ্যোগটি কীভাবে আমাদের গোপনীয়তাকে হ্রাস করেছে । এটি শুধুমাত্র নজরদারির ক্ষেত্রে ক্রমশ শক্তিশালী সরঞ্জাম হয়ে উঠছে তা নয় । মুখ চিহ্নিত করতে সর্বশেষ ডিপ-লার্নিং-বেসড ব্যবস্থা আমাদের সম্মতির বিষয়গুলিকে পুরোপুরি ব্যাহত করে দিচ্ছে ।
এমআইটি প্রযুক্তি পর্যালোচনা, মার্কিন যুক্তরাষ্ট্র : অলাভজনক সংস্থা মোজিলার একজন সদস্য দেবোরাহ রাজি এবং মার্কিন কংগ্রেসের সদস্যদের এলগোরিদমিক অ্যাকাউন্টিবিলিটির বিষয়ে যিনি পরামর্শ দেন, সেই জেনেভিউ ফ্রাইড 43 বছরেরও বেশি সময় ধরে সংকলিত 130 টিরও বেশি মুখমণ্ডল চিহ্নিত করার ডেটা পরীক্ষা করে দেখেছেন । তাঁরা দেখতে পেয়েছেন গভীর গবেষণার জন্য যে তথ্য গবেষকরা সংগ্রহ করেছেন, তা ক্রমশ মানুষের সম্মতি ছাড়াই সংগ্রহ করা হয়েছে এবং নজরদারি ব্যবস্থায় অন্তর্ভুক্ত হয়েছে । এর ফলে আরও আগোছালো তথ্য ভান্ডার তৈরি হয়েছে । তার মধ্যে হয়তো অনিচ্ছাকৃতভাবে অপ্রাপ্তবয়স্কদের ছবি অন্তর্ভুক্ত করা হয়েছে, বর্ণবিদ্বেষী এবং সেক্সিট তকমা হয়তো ব্যবহার করা হয়েছে অথবা আলো ও মানের অসামঞ্জস্যতাও থাকতে পারে । এই প্রবণতা এটা ব্যাখ্যা করতে সমর্থ হতে পারে, যেখানে মুখমণ্ডল চিহ্নিত করার ব্যবস্থার ব্যর্থতার জন্য সমস্যা ক্রমশ বৃদ্ধি পাচ্ছে । যেমন গত বছর ডেট্রয়েট অঞ্চলে দুটি কৃষ্ণাঙ্গ ব্যক্তিকে মিথ্যা অভিযোগে গ্রেপ্তার করার ঘটনা ।
প্রথমদিকের দিনগুলিতে লোকেরা মুখ সংক্রান্ত তথ্য সংগ্রহ, তা নথিভুক্ত করা এবং যাচাই করার কাজ সম্পর্কে অত্যন্ত সতর্ক ছিলেন বলে রাজি জানিয়েছেন । তিনি বলেন, “এখন আমরা আর চিন্তা করি না । সেই সব কিছু পরিত্যাগ করা হয়েছে । আপনি দশ লাখ মুখের সন্ধান করতে পারবেন না । একটি নির্দিষ্ট সময়ের পরে আপনি এমন ভাব করতে পারবেন না যে সবটা আপনার নিয়ন্ত্রণে রয়েছে ।
মুখমণ্ডল চিহ্নিত করার তথ্য সংগ্রহের ইতিহাস
গবেষকরা মুখমণ্ডল চিহ্নিত করার কাজের চারটি প্রধান যুগ চিহ্নিত করেন । প্রতিটি প্রযুক্তির উন্নতির হিসেবেই চালিত হয়েছে । প্রথম পর্ব, যা 1990-এর দশক পর্যন্ত চলেছিল । তা নিবিড় ভাবে মানুষের দ্বারা এবং ধীরগতিতে গণনামূলকভাবে করা হয়েছে বলে চিহ্নিত করা হয় ।
তার পর এই উপলব্ধি তৈরি হয় যে আঙুলের ছাপের চেয়ে মুখমণ্ডল চিহ্নিত করতে পারলে তা কোনও ব্যক্তি চিহ্নিত করতে অনেক বেশি কার্যকরী হয় । তখন মার্কিন প্রতিরক্ষা দফতর প্রথম বড় আকারের ফেস ডেটা তৈরি করতে 6.5 মিলিয়ন মার্কিন ডলার বরাদ্দ করে । তিন বছরে 15 টিরও বেশি ছবি তোলার ব্যবস্থা করা হয়েছে । যেখানে 1199 জন ব্যক্তির 14 হাজার 126 টি ছবি তুলে রাখা হয়েছে । ফেস রিকগনিশন টেকনোলজি ( এফইআরইটি ) এর তথ্য ভান্ডার 1996 সালে প্রকাশিত হয় ।
পরের দশকে শিক্ষা সংক্রান্ত এবং বাণিজ্যিক ভাবে মুখমণ্ডল চিহ্নিত করার গবেষণায় আরও উৎসাহ তৈরি হয়েছিল । আর আরও অনেক তথ্য ভান্ডার তৈরি করা হয়েছিল । বেশিরভাগটাই হয়েছিল এফইআরইটি-র মাধ্যমে ফটোশুট করে । এতে অংশগ্রহণকারীর সম্পূর্ণ সম্মতি ছিল । অনেকগুলি সাবধানী মেটাডেটাও অন্তর্ভুক্ত হয়েছিল বলে রাজি জানিয়েছেন । এর মধ্যে ছিল বিষয়গুলির বয়স এবং জাতিগত বা আলোকসজ্জার তথ্য । তবে এটা ছিল একেবারে শুরুর দিকের ব্যবস্থা, যেখানে বাস্তব-বিশ্বের বিন্যাসের উপর লড়াই করতে হত । আর তা গবেষকদের আরও বড় এবং আরও বিভিন্ন তথ্য ভান্ডারের সন্ধান করতে উৎসাহ দিয়েছিল ।
2007 সালে ওয়াইল্ড (এলএফডাব্লু) তথ্য ভান্ডারের মাধ্যমে লেবেল যুক্ত মুখ প্রকাশ পায় । ফলে ওয়েবের মাধ্যমে অনুসন্ধান করে তথ্য সংগ্রহের জন্য বড় সুযোগ তৈরি হয় । গবেষকরা সম্মতি নিয়ে উদ্বিগ্ন না হয়েই সরাসরি গুগল, ফ্লিকার এবং ইয়াহু থেকে ছবি ডাউনলোড করতে শুরু করেন । এলএফডাব্লু নাগরিকদের অন্তর্ভুক্তির আশপাশের মানও শিথিল করে দেয় । নাবালকদের অন্তর্ভুক্ত করার জন্য "শিশু", "কিশোর", এই জাতীয় শব্দগুলি ব্যবহার করে অনুসন্ধান করার বৈচিত্র বৃদ্ধি পায় এবং সেখান থেকে পাওয়া ছবির ব্যবহার শুরু হয় । এই প্রক্রিয়ার ফলে অনেক কম সময়ের মধ্যে উল্লেখযোগ্য ভাবে অনেক বড় তথ্য ভান্ডার তৈরি করা সম্ভব হয় । তবে মুখমণ্ডল চিহ্নিত করার কাজ আগের মতো একই ধরণের অনেক চ্যালেঞ্জের মুখোমুখি হচ্ছিল । প্রযুক্তির দুর্বল কার্যকারিতাকে কাটিয়ে ওঠার জন্য আরও বেশি পদ্ধতি এবং তথ্য সন্ধান করার জন্য গবেষকদের উপর চাপ তৈরি হচ্ছিল ।
তারপর 2014 সালে ফেসবুক তার ব্যবহারকারীদের ছবিগুলি ডিপফোর্স নামে একটি ডিপ-লার্নিং মডেলে প্রশিক্ষণের জন্য ব্যবহার করেছিল । সংস্থাটি কখনোই এই তথ্য ভান্ডার প্রকাশ করেনি, তবুও সিস্টেমের অতিমানবীয় পারফরম্যান্স মুখগুলি বিশ্লেষণের জন্য কার্যত ডিপ লার্নিংকে উন্নত করেছে । রাজি জানিয়েছেন যে তথ্য ভান্ডারে কয়েক মিলিয়ন ছবি জমা হতে থাকায় ম্যানুয়াল পদ্ধতিতে যাচাই করার এবং তাকে তকমা দেওয়ার কাজ প্রায় অসম্ভব হয়ে পড়েছিল । তার সঙ্গে কিছু অদ্ভূত ঘটনাও ঘটতে থাকে । যেখানে আপত্তিজনক পরিভাষা ব্যবহার করে নিজে থেকেই কিছু তকমা তৈরি হতে থাকে ।