عنوان: استخراج اتوماتیک اطلاعات بر اساس آنتالوژی پایان نامه
استخراج دانش، ایجاد دانش از منابع ساختاریافته (پایگاههای اطلاعاتی رابطهای، XML) و بدون ساختار (متن، اسناد، تصاویر) است.
دانش حاصل باید در قالبی قابل خواندن و ماشینی قابل تفسیر باشد و دانش را به گونه ای نشان دهد که استنتاج را تسهیل کند.
اگرچه از نظر روشی مشابه استخراج اطلاعات (NLP) و ETL (انبار داده) است، اما معیار اصلی این است که نتیجه استخراج فراتر از ایجاد اطلاعات ساختاریافته یا تبدیل به یک طرح واره رابطه ای باشد. این نیاز به استفاده مجدد از دانش رسمی موجود (استفاده مجدد از شناسه ها یا هستی شناسی ها) یا تولید یک طرحواره بر اساس داده های منبع دارد.
پس از استانداردسازی زبان های بازنمایی دانش مانند RDF و OWL، تحقیقات زیادی در این منطقه انجام شده است، به ویژه در مورد تبدیل پایگاه های داده رابطه ای به RDF، وضوح هویت، کشف دانش و یادگیری هستی شناسی. فرآیند کلی از روشهای سنتی استخراج اطلاعات و استخراج، تبدیل و بارگذاری (ETL) استفاده میکند که دادهها را از منابع به قالبهای ساختاریافته تبدیل میکند.
معیارهای زیر را می توان برای دسته بندی رویکردها در این مبحث استفاده کرد (برخی از آنها فقط استخراج از پایگاه های داده رابطه ای را در نظر می گیرند)
در نشر کتاب، گلچین مجموعهای از آثار ادبی است که توسط گردآورنده انتخاب میشود. ممکن است مجموعهای از نمایشنامهها، شعرها، داستانهای کوتاه، ترانهها یا گزیدههایی از نویسندگان مختلف باشد.
در ژانر داستانی، اصطلاح آنتولوژی معمولاً مجموعهای از آثار کوتاهتر، مانند داستانهای کوتاه و رمانهای کوتاه، توسط نویسندگان مختلف را دستهبندی میکند که هر کدام دارای شخصیتها و محیطهای غیرمرتبط هستند و معمولاً در یک جلد برای انتشار جمعآوری میشوند. متناوبا، میتواند مجموعهای از نوشتههای منتخب (داستانهای کوتاه، شعر و غیره) توسط یک نویسنده باشد.