شما اینجا هستید

تجزیه و تحلیل زبانی در راه حلهای اینفوواچ

Linguistic Analysis In Infowatch Solutions

استفاده از روش های تجزیه و تحلیل زبانی یکی از فوائد راه حل های InfoWatch در مقایسه با رقیب های دیگر است، زیرا تنها این روش می تواند سطح بالایی از شناسایی اطلاعات مهم در هر مرحله از چرخه ی حیات اطلاعات را تضمین کند، از جمله به محض این که ساخته شد، قالب سند را قادر به تعیین کند و همچنین فهمی از معنی آن ارائه دهد. این موضوع نتایج کیفی به دست می دهد، حتی زمانی که بخش های کوچکی از متن تحلیل می شوند که ممکن است در هر سندی قرار بگیرند یا در مکاتبات غیر رسمی یا توسط سیستم پیام رسانی سریع فرستاده شوند (ICQ، صحبت سریع، غیره).
 

پایگاه داده ی فیلتر کردن محتوا

تعریف CFD

پایگاه داده ی فیلتر کردن محتوا، پایگاه داده ای است که شامل فهرست ساختار سلسله مراتبی (درختی) از دسته بندی های تعیین شده بر اساس روش های احتمال و ریاضی با تعداد دلخواه از سطوح تو در تو است و شامل کلمات و اصطلاحاتی است که موضوع و سطح محرمانه بودن یک سند را قادر به تعیین شدن می سازند.

در این روش تصمیم خودکار موضوع یک متن بر اساس پایگاه داده ی فیلتر کردن محتوا (CFD) انجام می گیرد که قبلا ایجاد شده است. یک CFD نه تنها دسته بندی های اطلاعاتی که در یک شرکت می چرخند را توصیف می کند، بلکه نشانه های مختلفی را برای تعیین محرمانه بودن آن به کار می گیرد، از جمله ماهیت خاص تجارت شرکت و نیازمندی های آن به امنیت. به عنوان نتیجه ای از تجزیه و تحلیل زبانی، یک متن می تواند به طور خودکار به دسته بندی مناسب بر اساس موضوع و محتوای آن اختصاص داده شود. اطلاعات تحلیل شده ممکن است شامل عباراتی (کلمات و اصطلاحات) از دسته بندی های متفاوت باشند؛ بنابراین می تواند به یک یا چند دسته بندی CFD تخصیص داده شود.

مهم است که پایگاه داده ای ایجاد شود که از نتایج قابل اعتماد در هنگام فیلتر کردن اطلاعات توسط دسته بندی اطمینان حاصل کند. روش اصلی در تحلیل زبانی به کمک CFD شامل جستجو در بخشی از اطلاعات است که در حال تحلیل کلمات و اصطلاحاتی است که داده های محرمانه و ساختاریافته توسط دسته بندی را توصیف می کند.

 

فوائد این فناوری

  • حفاظت بلادرنگ، از جمله برای داده های "روز صفر"؛
  • دسته بندی خودکار متن تحلیل شده؛;
  • پشتیبانی از تمام زبان های اروپایی، پشتیبانی زبانی برای زبان روسی، انگلیسی، فرانسوی، آلمانی، اسپانیایی، ایتالیایی، اوکراینی، عربی، لهستانی، رومی و خلیج ریگایی، شناسایی خودکار زبان؛
  • توانایی کار با متون چند زبانه
  • پشتیبانی از آلودگی ها (تاریخ تحولات لغوی لغت نامه و مورفولوژی فازی)، انتخاب خودکار روش تحلیل مورفولوژیک؛
  • پایگاه داده ی محتوای کلی از پیش تعیین شده، قابلیت استفاده پایگاه داده های صنعتی و افزودن پایگاه داده ی خودتان

اثر انگشت دیجیتال تجزیه و تحلیل الگوها