• What is WordNet?

    What is WordNet?

    ওয়ার্ডনেট ইংরেজি ভাষার জন্য একটি লেজিক্যাল ডাটাবেস । [২] এটি ইংরেজী শব্দের সংশ্লেষ নামক প্রতিশব্দগুলির সেটগুলিতে দলবদ্ধ করে, সংক্ষিপ্ত সংজ্ঞা এবং ব্যবহারের উদাহরণ সরবরাহ করে এবং এই প্রতিশব্দ সেট বা তাদের সদস্যদের মধ্যে প্রচুর সম্পর্ক রেকর্ড করে। ওয়ার্ডনেটকে এভাবে অভিধান এবং থিসরাসগুলির সংমিশ্রণ হিসাবে দেখা যায় । যদিও এটি কোনও ওয়েব ব্রাউজারের মাধ্যমে মানব ব্যবহারকারীদের কাছে অ্যাক্সেসযোগ্য [3] এর প্রাথমিক ব্যবহার স্বয়ংক্রিয় পাঠ্য বিশ্লেষণ এবং কৃত্রিম বুদ্ধি প্রয়োগের ক্ষেত্রে রয়েছে। ডাটাবেসের এবংসফ্টওয়্যার সরঞ্জামগুলি একটি BSD শৈলীর লাইসেন্সের অধীনে প্রকাশিত হয়েছে এবং ওয়ার্ডনেট ওয়েবসাইট থেকে নিখরচায় ডাউনলোডের জন্য উপলব্ধ। বিতরণ করা ডাটাবেস উত্পাদন করার জন্য উভয় লিক্সোগ্রাফিক ডেটা ( lexicographer files লিক্সোগ্রাফার ফাইল ) এবং সংকলক ( called grind গ্রাইন্ড নামে পরিচিত ) উভয়ই উপলব্ধ।

    এই উপাদানটিতে প্রকাশিত কোনও মতামত, অনুসন্ধান, এবং সিদ্ধান্ত বা সুপারিশগুলি ওয়ার্ডনেটের স্রষ্টাদের are

    ওয়ার্ডনেট ভিত্তিক কোনও কাগজ লেখার সময় বা কোনও সফ্টওয়্যার অ্যাপ্লিকেশন, সরঞ্জাম, বা ইন্টারফেস তৈরি করার সময়, উত্সটি সঠিকভাবে উদ্ধৃত করা প্রয়োজন  ওয়ার্ডনেট তহবিলের জন্য উদ্ধৃতিগুলির পরিসংখ্যানগুলি গুরুত্বপূর্ণ ।

    About WordNet

    ওয়ার্ডনেট হ'ল ইংরাজির একটি বৃহত লেক্সাল ডাটাবেস। বিশেষ্য, ক্রিয়া, বিশেষণ এবং ক্রিয়াবিজ্ঞানগুলি জ্ঞানীয় প্রতিশব্দ (সিনেটসেট) এর সেটগুলিতে বিভক্ত করা হয়েছে, প্রত্যেকে পৃথক ধারণা প্রকাশ করে। সিনসেটগুলি ধারণাগত-শব্দার্থক এবং লেকিকাল সম্পর্কের মাধ্যমে সংযুক্ত। অর্থপূর্ণভাবে সম্পর্কিত শব্দ এবং ধারণার ফলে প্রাপ্ত নেটওয়ার্কটি ব্রাউজারের সাথে চলাচল করতে পারে। ওয়ার্ডনেট অবাধে এবং সর্বজনীন ডাউনলোডের জন্য উপলব্ধ। ওয়ার্ডনেটের কাঠামো এটিকে গণ্য ভাষাতত্ত্ব এবং প্রাকৃতিক ভাষা প্রক্রিয়াকরণের জন্য একটি দরকারী সরঞ্জাম হিসাবে তৈরি করে।

    ওয়ার্ডনেট সুপরিচিতভাবে একটি থিসেরাসের সাথে সাদৃশ্যপূর্ণ, এতে এটি শব্দগুলির অর্থের ভিত্তিতে একত্রে বিভাজন করে। তবে কিছু গুরুত্বপূর্ণ পার্থক্য রয়েছে। প্রথমত, ওয়ার্ডনেট কেবল শব্দের ফর্মগুলি নয়। অক্ষরের স্ট্রিংগুলি — তবে শব্দের নির্দিষ্ট ইন্দ্রিয়কে সংযুক্ত করে। ফলস্বরূপ, নেটওয়ার্কগুলিতে একে অপরের সান্নিধ্যে পাওয়া শব্দগুলি শব্দার্থবিজ্ঞানহীন হয়। দ্বিতীয়ত, ওয়ার্ডনেট শব্দের মধ্যে শব্দার্থক সম্পর্ককে লেবেল করে, যেখানে থিসেরাসের শব্দের বিভাজনগুলি অর্থের সাদৃশ্য ব্যতীত অন্য কোনও সুস্পষ্ট নিদর্শন অনুসরণ করে না।

    Structure

    ওয়ার্ডনেটের শব্দের মধ্যে প্রধান সম্পর্কটি হ'ল বন্ধ এবং ঘনিষ্ঠ বা গাড়ি এবং অটোমোবাইল শব্দের মধ্যে synonymy/সাইনোনিমি। synonymy/প্রতিশব্দ - একই শব্দকে বোঝায় এমন শব্দ এবং অনেকগুলি প্রসঙ্গে পরিবর্তিত হতে পারে এমন শব্দগুলি - আনর্ডারড সেটগুলিতে (সিনেটস) বিভক্ত করা হয়। ওয়ার্ডনেটের প্রতিটি 117,000 সিনসেটের সংক্ষিপ্ত সংখ্যক \"ধারণাগত সম্পর্কের\" মাধ্যমে অন্য সিনেটেটগুলির সাথে সংযুক্ত করা হয়েছে। অতিরিক্তভাবে, একটি সিনেটটিতে সংক্ষিপ্ত সংজ্ঞা (\"গ্লস\") থাকে এবং বেশিরভাগ ক্ষেত্রেই এক বা একাধিক সংক্ষিপ্ত বাক্য ব্যবহারকে চিত্রিত করে সিনেট সদস্যদের। বিভিন্ন স্বতন্ত্র অর্থ সহ শব্দ ফর্মগুলি অনেকগুলি স্বতন্ত্র সিন্যাসেটে উপস্থাপিত হয়। সুতরাং, ওয়ার্ডনেটে প্রতিটি ফর্ম-অর্থ জুটি অনন্য।

    Relations

    সিনসেটগুলির মধ্যে সর্বাধিক ঘন ঘন এনকোডযুক্ত সম্পর্ক হ'ল super-subordinate সম্পর্ক (hyperonymy, hyponymy or ISA relation/একে হাইপারনিমি, হাইপোনিমি বা আইএসএ সম্পর্কও বলা হয়)। It links more general synsets like {furniture, piece_of_furniture} to increasingly specific ones like {bed} and {bunkbed}. সুতরাং, ওয়ার্ডনেট জানিয়েছে যে বিভাগের furniture includes bed  রয়েছে, যার মধ্যে turn includes bunkbed রয়েছে; বিপরীতভাবে, bed and bunkbed মত ধারণাগুলি category furniture  তৈরি করে। All noun hierarchies ultimately গুলি শেষ পর্যন্ত মূল নোড {entity}.এ উঠে যায়। Hyponymy relation টি transitive/ট্রানজিটিভ: একটি আর্মচেয়ার যদি এক ধরণের চেয়ার হয়, এবং যদি চেয়ারটি এক ধরণের আসবাব হয় তবে একটি armchair একটি ধরণের আসবাব। ওয়ার্ডনেট প্রকার (common nouns) এবং উদাহরণগুলির মধ্যে (specific persons, countries and geographic entities/নির্দিষ্ট ব্যক্তি, দেশ এবং ভৌগলিক সত্তা) মধ্যে পার্থক্য করে। সুতরাং, আর্মচেয়ার এক ধরণের চেয়ার, বারাক ওবামা একজন রাষ্ট্রপতির উদাহরণ। উদাহরণগুলি সর্বদা তাদের স্তরক্রমের পাতাগুলি (টার্মিনাল) নোড থাকে।

    Meronymy/মেরোনিমি, পার্ট-পুরো সম্পর্কটি {chair} and {back, backrest}, {seat} and {leg} like এর মতো সিনসেটগুলির মধ্যে ধারণ করে। অংশগুলি তাদের সুপারিনডিনেটগুলি থেকে উত্তরাধিকারসূত্রে প্রাপ্ত: একটি চেয়ারের যদি পা থাকে তবে একটি আর্মচেয়ারেরও পা রয়েছে। অংশগুলি ''upward'' হিসাবে উত্তরাধিকার সূত্রে প্রাপ্ত হয় না কারণ এগুলি সামগ্রিকভাবে শ্রেণীর চেয়ে কেবল নির্দিষ্ট ধরণের জিনিসগুলির বৈশিষ্ট্যযুক্ত হতে পারে: চেয়ার এবং ধরণের চেয়ারগুলির পা থাকে তবে সব ধরণের আসবাবের পা থাকে না।

    Verb সিনেটসগুলি হায়ারার্কিতেও সাজানো হয়; গাছের নীচের দিকে verbs গুলি ((troponyms) ট্রোপোনামস) ক্রমবর্ধমানভাবে নির্দিষ্ট ঘটনাবলী ব্যক্ত করে যা কোনও ইভেন্টকে চিহ্নিত করে {communicate}-{talk}-{whisper}। প্রকাশিত নির্দিষ্ট পদ্ধতিটি সিনমেটিক ফিল্ডের উপর নির্ভর করে; ভলিউম (উপরের উদাহরণে যেমন) কেবলমাত্র একটি মাত্রা যা ক্রিয়াগুলি বিস্তারিতভাবে বর্ণনা করা যেতে পারে। অন্যরা হ'ল গতি (চলন-জগ-রান) বা আবেগের তীব্রতা (like-love-idolize/যেমন-প্রেম-প্রতিমা)। অবিচ্ছিন্নভাবে এবং একযোগে একে অপরকে আবশ্যক করে এমন ইভেন্টগুলির বর্ণনা দেওয়ার ক্রিয়াগুলি লিঙ্কযুক্ত: {buy}-{pay}, {succeed}-{try}, {show}-{see}, etc, ইত্যাদি etc.

    বিরোধী শর্তাবলী বিশেষণ সংগঠিত হয়। ভেজা-শুকনো এবং অল্প বয়স্কের মতো ''direct''সরাসরি' প্রতিশব্দগুলির জুড়িগুলি তাদের সদস্যদের শব্দার্থক চুক্তিকে প্রতিফলিত করে। এই পোলার  adjectives/বিশেষণগুলির প্রতিটি পরিবর্তে সংখ্যক semantically similar/'শব্দার্থানুক্রমিকভাবে dry is linked to parched, arid, dessicated and bone-dry and wet to soggy, waterlogged  ইত্যাদির সাথে সংযুক্ত থাকে। শব্দার্থগতভাবে অনুরূপ বিশেষণগুলি' পরোক্ষ প্রতিশব্দ ' বিপরীত মেরুতে কনট্রাল সদস্য। সম্পর্কিত বিশেষণ (pertainyms/'সম্পর্কিত শব্দ') তারা (criminal-crime/ ক্রিমিনাল-অপরাধ) থেকে উদ্ভূত বিশেষ্যগুলিকে নির্দেশ করে।ওয়ার্ডনেটে খুব কম সংখ্যক অ্যাডওয়্যার রয়েছে (সম্ভবত, বেশিরভাগ ক্ষেত্রেই সত্য, ইত্যাদি) কারণ বেশিরভাগ ইংলিশ অ্যাডওয়্যারটি স্পষ্টভাবে স্পষ্টভাবে স্পষ্টরূপে রূপচর্চা (আশ্চর্যজনকভাবে, আশ্চর্যরূপে) ইত্যাদির মাধ্যমে বিশেষণ থেকে উদ্ভূত হয়েছে।

    Cross-POS relations

    ওয়ার্ডনেটের সম্পর্কের বেশিরভাগ অংশই বক্তৃতার একই অংশ (পস) থেকে শব্দগুলিকে সংযুক্ত করে। সুতরাং, ওয়ার্ডনেট আসলে চারটি সাব-নেট, বিশেষ্য, ক্রিয়া, বিশেষণ এবং অ্যাডওয়্যারগুলির জন্য একটি করে কয়েকটি ক্রস-পস পয়েন্টার সহ গঠিত হয়। ক্রস-পোজ সম্পর্কের মধ্যে "মরফোজেনটিক" লিঙ্কগুলি অন্তর্ভুক্ত রয়েছে যা শব্দার্থগতভাবে অনুরূপ শব্দের মধ্যে একই অর্থ সহ একটি স্টেম ভাগ করে: পর্যবেক্ষণ (ক্রিয়া), পর্যবেক্ষণকারী (বিশেষণ) পর্যবেক্ষণ, পর্যবেক্ষণকারী (বিশেষ্য)। বিশেষ্য ক্রিয়া সংখ্যার মধ্যে ক্রিয়াপদের সাথে বিশেষ্যটির বিশেষত্বের ভূমিকাটি নির্দিষ্ট করা হয়েছে:
    {sleeper, sleeping_car} is the LOCATION for {sleep} and {painter}is the AGENT of {paint}, while {painting, picture} is its RESULT.

    ডাটাবেস বিষয়বস্তু

    ডাটাবেসটিতে মোট 207 016 শব্দ- সংখ্যার জোড়গুলির জন্য 175 979 সিনসেটগুলিতে সংগঠিত 155 327 শব্দ রয়েছে ; মধ্যে সংকুচিত ফর্ম, এটা 12 সম্পর্কে মেগাবাইটে আকার। [4]

    ওয়ার্ডনেটে লেজিক্যাল ক্যাটাগরি বিশেষ্য , ক্রিয়া , বিশেষণ এবং ক্রিয়াকলাপ অন্তর্ভুক্ত রয়েছে তবে প্রস্তুতি , নির্ধারক এবং অন্যান্য ফাংশন শব্দের উপেক্ষা করা হয় ।

    মোটামুটি সমার্থক একই লেকিক্যাল ক্যাটাগরির শব্দগুলিকে সিএনসেটে বিভক্ত করা হয়েছে । Synsets সিমপ্লেক্স শব্দ সেইসাথে অন্তর্ভুক্ত collocations "বাইরে খাওয়া" এবং মত "গাড়ী পুকুর।" পলিসেমাস শব্দের ফর্মের বিভিন্ন ইন্দ্রিয়গুলি বিভিন্ন সিন্যাসেটগুলিতে বরাদ্দ করা হয়। সংক্ষিপ্তসারটির অর্থ একটি সংক্ষিপ্ত সংজ্ঞায়িত গ্লস এবং এক বা একাধিক ব্যবহারের উদাহরণ দিয়ে আরও স্পষ্ট করা হয়েছে । একটি উদাহরণ বিশেষণ সিনসেট হ'ল:

    ভাল, ডান, পাকা - (নির্দিষ্ট উদ্দেশ্যে সবচেয়ে উপযুক্ত বা সঠিক; "টমেটো রোপণের একটি ভাল সময়"; "কাজ করার সঠিক সময়"; "মহা সমাজতাত্ত্বিক পরিবর্তনের জন্য সময় উপযুক্ত")
    সমস্ত সিনসেটগুলি সিনেটিক সম্পর্কের মাধ্যমে অন্যান্য সিনসেটগুলির সাথে সংযুক্ত। এই সম্পর্কগুলি, যা সমস্ত লেজিকাল বিভাগ দ্বারা ভাগ করা হয় না, এর মধ্যে রয়েছে:

      • hypernymsY is a hypernym of X if every X is a (kind of) Y (canine is a hypernym of dog)
      • hyponymsY is a hyponym of X if every Y is a (kind of) X (dog is a hyponym of canine)
      • coordinate termsY is a coordinate term of X if X and Y share a hypernym (wolf is a coordinate term of dog, and dog is a coordinate term of wolf)
      • meronymY is a meronym of X if Y is a part of X (window is a meronym of building)
      • holonymY is a holonym of X if X is a part of Y (building is a holonym of window)
    • Verbs
      • hypernym: the verb Y is a hypernym of the verb X if the activity X is a (kind of) Y (to perceive is an hypernym of to listen)
      • troponym: the verb Y is a troponym of the verb X if the activity Y is doing X in some manner (to lisp is a troponym of to talk)
      • entailment: the verb Y is entailed by X if by doing X you must be doing Y (to sleep is entailed by to snore)
      • coordinate terms: those verbs sharing a common hypernym (to lisp and to yell)

    এই শব্দার্থক সম্পর্কগুলি লিঙ্কযুক্ত সিনসেটগুলির সকল সদস্যের মধ্যে রয়েছে। স্বতন্ত্র সিনেটসেট সদস্যদের (শব্দ) লেজিকাল সম্পর্কের সাথেও সংযুক্ত থাকতে পারে। উদাহরণস্বরূপ, (এক অর্থে) বিশেষ্য "পরিচালক" ক্রিয়া "প্রত্যক্ষ" এর সাথে যুক্ত হয়েছে (যার এক অর্থে) এটি "মরফোজেনটিক" লিঙ্কের মাধ্যমে উদ্ভূত হয়েছে।

    ডাটাবেস সহ বিতরণ করা সফ্টওয়্যারটির রূপবিজ্ঞানের কাজগুলি ব্যবহারকারীর ইনপুট থেকে কোনও শব্দের লেম্মা বা স্টেম ফর্মটি অনুমিত করার চেষ্টা করে । অনিয়মিত ফর্মগুলি একটি তালিকায় সংরক্ষণ করা হয় এবং "খাওয়া" সন্ধান করা উদাহরণস্বরূপ "খাওয়া" ফিরিয়ে দেবে।

    Knowledge structure[edit]
    বিশেষ্য ও ক্রিয়া উভয়ই হাইপারনিতে সংগঠিত হয়, হাইপারনেম বা আইএস এ সম্পর্কের দ্বারা সংজ্ঞায়িত হয় । উদাহরণস্বরূপ, কুকুর শব্দের একটি ধারনা হাইপারনিম হায়ারার্কির নীচে পাওয়া যায়; একই স্তরের শব্দগুলি সিনসেট সদস্যদের উপস্থাপন করে। প্রতিশব্দ প্রতিটি সেট একটি অনন্য সূচক আছে।
    dog, domestic dog, Canis familiaris
    • canine, canid
      • carnivore
        • placental, placental mammal, eutherian, eutherian mammal
          • mammal
            • vertebrate, craniate
              • chordate
                • animal, animate being, beast, brute, creature, fauna
                  • ...

    শীর্ষ স্তরে, এই শ্রেণিবিন্যাসগুলি বিশেষ্যগুলির জন্য 25 প্রারম্ভিক "গাছ" এবং ক্রিয়াপদের জন্য 15 ( একটি রক্ষণাবেক্ষণ স্তরে লিক্সোগ্রাফিক ফাইল নামে পরিচিত হিসাবে সংগঠিত হয় । সবগুলিই একটি অনন্য প্রাথমিক সিনেটসেট, "সত্তা" এর সাথে যুক্ত। বিশেষ্যক্রমের ক্রিয়াকলাপের চেয়ে বিশেষ্যক্রমগুলি অনেক গভীর
    ক্রমবর্ধমান গাছগুলিতে বিশেষণগুলি সংগঠিত হয় না। পরিবর্তে, দুটি "কেন্দ্রীয়" প্রতিশব্দ যেমন "গরম" এবং "ঠান্ডা" বাইনারি খুঁটি গঠন করে, যখন 'স্যাটেলাইট' প্রতিশব্দ যেমন "স্টিমিং" এবং "মরিচ" একটি "মিল" সম্পর্কের মাধ্যমে তাদের নিজ নিজ মেরুতে সংযুক্ত হন। বিশেষণগুলি এইভাবে "গাছ" না দিয়ে "ডাম্বেল" হিসাবে ভিজ্যুয়ালাইজ করা যায়।

    Psycholinguistic aspects

    ওয়ার্ডনেট প্রকল্পের প্রাথমিক লক্ষ্যটি ছিল একটি লেজিকাল ডেটাবেস তৈরি করা যা 1960 এর দশকের শেষদিকে বিকশিত মানবিক স্মৃতিশক্তির তত্ত্বের সাথে সামঞ্জস্যপূর্ণ। মনস্তাত্ত্বিক পরীক্ষায় ইঙ্গিত দেওয়া হয় যে বক্তারা তাদের ধারণাগুলি সম্পর্কে জ্ঞানকে একটি অর্থনৈতিক, শ্রেণিবিন্যাসিক পদ্ধতিতে সংগঠিত করেছিলেন। ধারণাগত জ্ঞান অ্যাক্সেসের জন্য পুনরুদ্ধারের জন্য প্রয়োজনীয় সময়টি মনে হয়েছিল যে জ্ঞান অ্যাক্সেসের জন্য স্পিকারকে "ট্র্যাভার্স" করতে হবে এমন শ্রেণিবদ্ধের সংখ্যার সাথে সরাসরি সম্পর্কিত ছিল। সুতরাং, স্পিকাররা আরও দ্রুত যাচাই করতে পারত যে ক্যানারিগুলি গান গাইতে পারে কারণ ক্যানারিগুলি গানের বার্ড , তবে ক্যানারিগুলি উড়তে পারে তা যাচাই করতে আরও কিছুটা সময় প্রয়োজন (যেখানে তারা সুপারর্ডিনেট স্তরে "পাখি" ধারণাটি অ্যাক্সেস করতে হয়েছিল) এবং আরও বেশি সময় দেওয়ার জন্য ক্যানারি চামড়া যাচাই করুন(হাইপোনিমির একাধিক স্তর জুড়ে "প্রাণী" পর্যন্ত চেহারা প্রয়োজন)। [৫] যদিও এই জাতীয় পরীক্ষা এবং অন্তর্নিহিত তত্ত্বগুলি সমালোচনার শিকার হয়েছে, ওয়ার্ডনেটের কিছু সংস্থা পরীক্ষামূলক প্রমাণের সাথে সামঞ্জস্যপূর্ণ। উদাহরণস্বরূপ, অ্যানোমিক অ্যাফাসিয়া একটি স্পষ্টরূপে নির্দিষ্ট শব্দার্থক বিভাগ, একটি ওয়ার্ডনেট শ্রেণিবদ্ধ শব্দ থেকে শব্দ উত্পাদন করার স্পিকারের নির্বাচনকে নির্বাচিতভাবে প্রভাবিত করে। নামবিহীন বিশেষণগুলি (ডাম্বেল কাঠামোর ওয়ার্ডনেটের কেন্দ্রীয় বিশেষণগুলি) সুযোগের চেয়ে বহুগুণ সহাবস্থান হতে দেখা যায়, এমন একটি সত্য যা বহু ভাষার জন্য ধারণ করে দেখা গেছে।

    Applications[edit]

    WordNet has been used for a number of purposes in information systems, including word-sense disambiguationinformation retrievalautomatic text classificationautomatic text summarizationmachine translation and even automatic crossword puzzle generation.
    A common use of WordNet is to determine the similarity between words. Various algorithms have been proposed, including measuring the distance among words and synsets in WordNet's graph structure, such as by counting the number of edges among synsets. The intuition is that the closer two words or synsets are, the closer their meaning. A number of WordNet-based word similarity algorithms are implemented in a Perl package called WordNet::Similarity,[15] and in a Python package called NLTK[16]. Other more sophisticated WordNet-based similarity techniques include ADW,[17] whose implementation is available in Java. WordNet can also be used to inter-link other vocabularies.[18]

    Other languages

    • Arabic WordNet:[22][23] WordNet for Arabic language.
    • Arabic Ontology, a linguistic ontology that has the same structure as wordnet, and mapped to it.
    • The BalkaNet project[24] has produced WordNets for six European languages (Bulgarian, Czech, Greek, Romanian, Turkish and Serbian). For this project, a freely available XML-based WordNet editor was developed. This editor – VisDic – is not in active development anymore, but is still used for the creation of various WordNets. Its successor, DEBVisDic, is client-server application and is currently used for the editing of several WordNets (Dutch in Cornetto project, Polish, Hungarian, several African languages, Chinese).
    • BulNet is a Bulgarian version of the WordNet developed at the Department of Computational Linguistics of the Institute for Bulgarian Language, Bulgarian Academy of Sciences.[25]
    • CWN (Chinese Wordnet or 中文詞彙網路) supported by National Taiwan University.[26]
    • The EuroWordNet project[27] has produced WordNets for several European languages and linked them together; these are not freely available however. The Global Wordnet project attempts to coordinate the production and linking of "wordnets" for all languages.[28] Oxford University Press, the publisher of the Oxford English Dictionary, has voiced plans to produce their own online competitor to WordNet.[citation needed]
    • FinnWordNet is a Finnish version of the WordNet where all entries of the original English WordNet were translated.[29]
    • GermaNet is a German version of the WordNet developed by the University of Tübingen.[30]
    • The IndoWordNet[31] is a linked lexical knowledge base of wordnets of 18 scheduled languages of India viz., AssameseBanglaBodoGujaratiHindiKannadaKashmiriKonkaniMalayalamMeitei (Manipuri), MarathiNepaliOdiaPunjabiSanskritTamilTelugu and Urdu.
    • JAWS (Just Another WordNet Subset), another French version of WordNet[32] built using the Wiktionary and semantic spaces
    • WordNet Bahasa: WordNet for Malay and Indonesia language, developed by Nanyang University of Technology.
    • Malayalam WordNet, developed by Cochin University Of Science and Technology.[33]
    • Multilingual Central Repository (MCR) integrates in the same EuroWordNet framework wordnets from Spanish, Catalan, Basque, Galician and Portuguese liked to English.[34]
    • The MultiWordNet project,[35] a multilingual WordNet aimed at producing an Italian WordNet strongly aligned with the Princeton WordNet.
    • OpenDutchWordNet,[36] is a Dutch lexical semantic database.
    • OpenWN-PT is a Brazilian Portuguese version of the original WordNet freely available for download under CC-BY-SA license.[37]
    • plWordNet[38] is a Polish-language version of WordNet developed by Wrocław University of Technology.
    • PolNet[39] is a Polish-language version of WordNet developed by Adam Mickiewicz University in Poznań (distributed under CC BY-NC-ND 3.0 license).
    Projects such as BalkaNet and EuroWordNet made it feasible to create standalone wordnets linked to the original one. One of such projects was Russian WordNet patronized by Petersburg State University of Means of Communication[40] led by S.A. Yablonsky[41] or Russnet[42] by Saint Petersburg State University
    • UWN is an automatically constructed multilingual lexical knowledge base extending WordNet to cover over a million words in many different languages.[43]
    • WOLF (WordNet Libre du Français), a French version of WordNet.[44]

    Linked data

    • BabelNet,[45] a very large multilingual semantic network with millions of concepts obtained by integrating WordNet and Wikipedia using an automatic mapping algorithm.
    • The SUMO ontology[46] has produced a mapping between all of the WordNet synsets (including nouns, verbs, adjectives and adverbs), and SUMO classes. The most recent addition of the mappings provides links to all of the more specific terms in the MId-Level Ontology (MILO), which extends SUMO.
    • OpenCyc,[47] an open ontology and knowledge base of everyday common sense knowledge, has 12,000 terms linked to WordNet synonym sets.
    • DOLCE,[48] is the first module of the WonderWeb Foundational Ontologies Library (WFOL). This upper-ontology has been developed in light of rigorous ontological principles inspired by the philosophical tradition, with a clear orientation toward language and cognition. OntoWordNet[49] is the result of an experimental align WordNet's upper level with DOLCE. It is suggested that such alignment could lead to an "ontologically sweetened" WordNet, meant to be conceptually more rigorous, cognitively transparent, and efficiently exploitable in several applications.
    • DBpedia,[50] a database of structured information, is linked to WordNet.
    • The eXtended WordNet[51] is a project at the University of Texas at Dallas which aims to improve WordNet by semantically parsing the glosses, thus making the information contained in these definitions available for automatic knowledge processing systems. It is freely available under a license similar to WordNet's.
    • The GCIDE project produced a dictionary by combining a public domain Webster's Dictionary from 1913 with some WordNet definitions and material provided by volunteers. It was released under the copyleft license GPL.
    • ImageNet is an image database organized according to the WordNet hierarchy (currently only the nouns), in which each node of the hierarchy is depicted by hundreds and thousands of images.[52] Currently, it has over 500 images per node on average.
    • BioWordnet, a biomedical extension of wordnet was abandoned due to issues about stability over versions.[53]
    • WikiTax2WordNet, a mapping between WordNet synsets and Wikipedia categories.[54]
    • WordNet++, a resource including over millions of semantic edges harvested from Wikipedia and connecting pairs of WordNet synsets.[55]
    • SentiWordNet, a resource for supporting opinion mining applications obtained by tagging all the WordNet 3.0 synsets according to their estimated degrees of positivity, negativity, and neutrality.[56]
    • ColorDict, is an Android application to mobiles phones that use Wordnet database and others, like Wikipedia.
    • UBY-LMF a database of 10 resources including WordNet.

    Related projects

    • FrameNet is a lexical database that shares some similarities with, and refers to, WordNet.
    • Lexical markup framework (LMF) is an ISO standard specified within ISO/TC37 in order to define a common standardized framework for the construction of lexicons, including WordNet. The subset of LMF for Wordnet is called Wordnet-LMF. An instantiation has been made within the KYOTO project.[57]
    • UNL Programme is a project under the auspices of UNO aimed to consolidate lexicosemantic data of many languages to be used in machine translation and information extraction systems.

    More Information

    Fellbaum, Christiane (2005). WordNet and wordnets. In: Brown, Keith et al. (eds.), Encyclopedia of Language and Linguistics, Second Edition, Oxford: Elsevier, 665-670.


  • 0 comments:

    Post a Comment

    New Research

    Attention Mechanism Based Multi Feature Fusion Forest for Hyperspectral Image Classification.

    CBS-GAN: A Band Selection Based Generative Adversarial Net for Hyperspectral Sample Generation.

    Multi-feature Fusion based Deep Forest for Hyperspectral Image Classification.

    ADDRESS

    388 Lumo Rd, Hongshan, Wuhan, Hubei, China

    EMAIL

    contact-m.zamanb@yahoo.com
    mostofa.zaman@cug.edu.cn

    TELEPHONE

    #
    #

    MOBILE

    +8615527370302,
    +8807171546477