جنگ Ùˆ ØµÙ„Ø Ú†Ù†Ø¯ کلمه
جنگ Ùˆ ØµÙ„Ø Ú†Ù†Ø¯ کلمه است؟!‌ جنگ Ùˆ ØµÙ„Ø Ú†Ù†Ø¯ کلمه 3 ØرÙÛŒ داره؟!‌ من Ú©Ù‡ نشمردم، ولی اونایی Ú©Ù‡ شمردن می‌گن 142048 کلمه سه ØرÙÛŒ داره. (البته بماند Ú©Ù‡ نسخه انگلیسی ماجرا منظورمه!)‌ خوب … این‌ها به Ú†Ù‡ درد می‌خورد؟
تØلیل متون ادبی، چیز جدیدی نیست. Øالا اولین مراØÙ„ کار می‌تواند شماره کلمات Ùˆ پراکندگی آن‌ها باشد Ùˆ مرØله‌های بعدی آماره‌های بهتر. مثلا یادم هست در مقاله‌ای خوانده بودم Ú©Ù‡ میزان randomness تعدادی اثر مختل٠با زبان‌های گوناگون (هم زبان‌های طبیعی Ùˆ هم مصنوعی (یعنی زبان‌های کامپیوتری)) با هم مقایسه شده بود. نویسنده مقاله این Ùرض را کرده بود Ú©Ù‡ هر Ú†Ù‡ این میزان بیش‌تر باشد، نشان‌دهنده خلاقیت بیش‌تر نویسنده در انتخاب کلمات است Ùˆ خوب چنین چیزی هم مشاهده شده بود. زبان‌های کامپیوتری به مراتب ساختار یاÙته‌تر بودند (چیزی Ú©Ù‡ انتظارش می‌رود).
کلا کار روی داده‌های زبانی، چیزی است که در دو دنیا عاقبت دارد. اگر کسی خواست بداند چرا،‌ می‌نویسم