ডাইনামিক প্রোগ্রামিং ৪ (লংগেস্ট কমন সাবসিকোয়েন্স)

আগের পর্ব গুলোতে আমরা যেসব প্রবলেম দেখে এসেছি সেগুলোর সাবপ্রবলেমের স্টেট ছিল মাত্র ১টা। এইবার আমরা আরেকটু জটিল সমস‍্যা সমাধান করবো যার নাম লংগেস্ট কমন সাবসিকোয়েন্স বা LCS। এটা শেখার পরে আমি এডিট ডিসটেন্স প্রবলেম নিয়ে অল্প কিছু কথা বলবো এবং তোমার কাজ হবে সেটা নিজে নিজে সমাধান করা।

এই প্রবলেমে তোমাকে দুটি স্ট্রিং দেয়া থাকবে $S$ এবং $W$। তোমাকে তাদের মধ‍্যে লংগেস্ট কমন সাবসিকোয়েন্স এর দৈর্ঘ‍্য বের করতে হবে। সাবসিকোয়েন্সের সংজ্ঞাটা মনে করিয়ে দেই, একটা স্ট্রিং থেকে কিছু ক‍্যারেক্টার মুছে দিলে যা বাকি থাকে সেটাই স্ট্রিংটা সাবসিকোয়েন্স। একটা স্ট্রিং এর $2^{n}$ টা সাবসিকোয়েন্স থাকতে পারে। নিচের ছবিতে দুটি স্ট্রিং এবং তাদের লংগেস্ট কমন সাবসিকোয়েন্স দেখানো হয়েছে।

LCS এর দৈর্ঘ‍‍্য এক্ষেত্রে $3$।

আমাদের প্রবলেমটা হলো $S$ এবং $W$ এর LCS বের করতে হবে। আমরা $S$ এর ইনডেক্সগুলো হলো $i$ এবং $W$ এর ইনডেক্স $j$ দিয়ে প্রকাশ করবো। এখন নিচ

এখন আমরা এভাবে চিন্তা করতে পারি, শুরুতে আমরা দুটি স্ট্রিং এরই প্রথম ইনডেক্স $i = 0$ এবং $j = 0$ তে আছি এবং আমাদেরকে $lcs(0, 0)$ বের করতে হবে। এখন আমরা যদি যেকোনো $(i, j)$  এর জন‍্য $lcs(i, j)$ বের করতে পারি তাহলেই কিন্তু আমাদের কাজ হয়ে যায়। $lcs(i, j)$ বলতে বুঝাচ্ছে $i$ এবং $j$ তম ইনডেক্স থেকে শুরু হওয়া $S$ এবং $W$ এর সাফিক্সের LCS। যেমন $lcs(1,2)$ হলো “ELLOM” এবং “RLL” এর LCS।

এখন আমরা যখন $(i, j)$ তে আছি তখন ৩টি ঘটনা ঘটতে পারে:

  • $S[i] = W[j]$, অর্থাৎ দুটি স্ট্রিং এই একই ক‍্যারেক্টার আছে। সেক্ষেত্রে ওই ক‍্যারেক্টারটাকে LCS এর অংশ ধরে নিয়ে আমরা বাকি সাফিক্সটুকুর LCS বের করতে পারি। তারমানে এখন আমাদের $lcs(i + 1, j + 1)$ প্রবলেমটা সলভ করতে হবে, এখানে অনুমান করার কোনো ব‍্যাপার নেই।

  • $S[i] \ne W[j]$ হলে ব‍্যাপারটা আরেকটু ইন্টারেস্টিং। যেহেতু ক‍্যারেক্টার দুটি মিলছে না, অন্তত একটা ক‍্যারেক্টার আমাদের ফেলে দিতে হবে। এখন আমাদের হাতে দুটি চয়েজ, $i$ তম ইনডেক্সটা ফেলে দিয়ে $lcs(i + 1, j)$ ক‍্যালকুলেট করা, অথবা $j$ তম ইনডেক্সটাকে ফেলে দিয়ে $lcs(i, j + 1)$ ক‍্যালকুলেট করা। বুঝতেই পারছো আমরা দুটি পথে গিয়ে ম‍্যাক্সটাকে বেছে নিবো।

 

  • $i = n$ বা $j = m$ হয়ে যাওয়া মানে কোন একটা স্ট্রিং এর শেষ মাথায় চলে গেছি, সেক্ষেত্রে $0$ রিটার্ন করতে হবে।

আমরা আমাদের রিকার্সিভ ফর্মুলা তাহলে পেয়ে গিয়েছি:


এখন কোড লিখে ফেলা খুবই সহজ:

কমপ্লেক্সিটি:

আমাদের স্টেট হলো $(i, j)$ যেখানে $i$ এর মান হতে পারে $[0, n-1]$ এর মধ‍্যে এবং $j$ হতে পারে $[0, m – 1]$ এর মধ‍্যে। তাহলে মোট স্টেট আছে $n * m$  টা এবং রিকার্সনের ভিতর আমরা বাকি যেসব কাজ করেছি সেগুলো কমপ্লেক্সিটি কনস্টেন্ট। তাহলে মোট কমপ্লেক্সিটি হবে $O(n * m)$, জেনারেলাইজ করে বলা যায় $O(n^{2})$।

ইটারেটিভ ভার্সন:

ইটারেটিভ ভার্সন লেখার জন‍্য আমাদেরকে বুঝতে হবে স্টেটগুলো কোন অর্ডারে আপডেট হচ্ছে (টপোলজিকাল অর্ডার)। আমরা একটু mem টেবিলটার দিকে তাকাই:

রিকার্সিভ ভার্সনে এই টেবিলটা তৈরি হয়েছে $lcs(0, 0)$ কল করার পর (শেষ রো এবং কলাম টেবিলের অংশ না, দেখানো হয়েছে বোঝার সুবিধার জন‍্য)। এই টেবিলের প্রতিটি সেল  $(i, j)$ আপডেট হয়েছে হয় তার ডান কোনার সেল $(i + 1,  j + 1)$ থেকে অথবা উপর বা নিচের সেল $(i, +1, j)$, $(i, j + 1)$ থেকে। তো তুমি প্রতিটা সেলকে গ্রাফের একটা নোড হিসাবে কল্পনা করলে সেটা এরকম দেখাবে

বোঝা যাচ্ছে নিচের ডান কোনার সেল $(n-1, m-1)$ থেকে শুরু করে আমাদেরকে টেবিলটা পূরণ করতে হবে। আমরা সেটা চাইলে row by row করতে পারি। এখন আমার সাজেশন হবে উপরের উদাহরণটার জন‍্য তুমি হাতে-কলমে একবার টেবিলটা তৈরি করো, তাহলেই জিনিসটা মাথায় গেথে যাবে।

আমরা যদি এরকম ভাবে নেস্টেড লুপ চালাই তাহলে টপোলজিকাল অর্ডারে সেলগুলোকে পাবো:

ইটারেটিভ ডিপিতে বেস-কেস হ‍্যান্ডেল করতে একটু বেশি সতর্ক থাকতে হয়। আমরা যদি বেস-কেস টাকে শুরুতেই টেবিলে রেখে দিয়ে কাজ শুরু করি তাহলে জীবন কিছুটা সহজ হয়ে যায়। পুরো কোডটা হবে এরকম:

শেষ করার আগে একটা মাথা খাটানোর জন‍্য প্রশ্ন। কিছু কিছু ক্ষেত্রে রিকার্সিভ ফাংশন ইটারেশনের থেকে দ্রুত কাজ করবে। ইটারেটিভ ডিপিকে সবসময় পুরা টেবিলটাই পূর্ণ করতে হবে কিন্তু রিকার্সিভ ডিপি পুরো টেবিল ফিলআপ না করেই অনেক ক্ষেত্রে রেজাল্ট বের করে আনতে পারবে। প্রশ্ন হলো কেন এরকম ঘটে এবং কি ধরনের ইনপুটের জন‍্য রিকার্সিভ ফাংশন ভালো কাজ করবে?

প্র‍্যাকটিস প্রবলেম: https://leetcode.com/problems/longest-common-subsequence/

রিলেটেড প্রবলেম – এডিট ডিসটেন্স

তোমাকে দু্টি স্ট্রিং $S$, $W$ দেয়া আছে। তুমি শুধুমাত্র $S$ স্ট্রিংটার উপর ৩টা অপারেশন করতে পারো, কোন একটা ক্যারেকটার বদলে দিতে পারো, কোন ক্যারেকটার মুছে ফেলতে পারো, যেকোন পজিশনে নতুন ক্যারেকটার ঢুকাতে পারো। তারমানে চেঞ্জ, ডিলিট, ইনসার্ট হলো তোমার ৩টা অপারেশন। এখন তোমার কাজ মিনিমাম অপারেশনে $S$ স্ট্রিংটা টাকে $W$ বানানো।

যেমন “blog” কে “bogs” বানাতে তুমি l মুছে ফেলে স্ট্রিং এর শেষে s ইনসার্ট করতে পারো।

হিন্টস: LCS এর মতোই দুইটা ইনডেক্স  $i,j$ কে স্টেট রাখতে হবে। এখন তুমি চিন্তা করো স্ট্রিং $S$ থেকে কোন ক্যারেকটার মুছে ফেললে $i,j$ এর পরিবর্তন কিরকম হবে। ঠিক সেভাবে বাকি ২টি অপারেশনের জন্য কিভাবে $i,j$ পরিবর্তন হবে সেটা বের করো)

প্র‍্যাকটিস: https://leetcode.com/problems/edit-distance/

পরের পর্বে আমরা ক্লাসিকাল কয়েন চেঞ্জ প্রবলেম শিখবো। হ‍্যাপি কোডিং!

 

Print Friendly, PDF & Email

ফেসবুকে মন্তব্য

comments

Powered by Facebook Comments

15,329 times read (exlcuding bots)

Leave a Reply

Your email address will not be published. Required fields are marked *