دانلود مقاله

توضیحات محصول

دانلود مقاله یک هادوپ مبتنی بر پلتفرم برای پردازش زبان طبیعی صفحات و اسناد وب

تعداد کلمات فایل انگلیسی:5211 کلمه 9 صفحه pdf

تعداد صفحات فایل ترجمه :13 صفحه word فونت 14 B Nazanin

یک هادوپ مبتنی بر پلتفرم برای پردازش زبان طبیعی صفحات و اسناد وب

پائولو نسی، جیانی پانتالئو، گیانمارکو سانسی

سیستم های توزیع و آزمایشگاه فناوری اینترنت، آزمایشگاه DISIT، گروه مهندسی اطلاعات (DINFO)، دانشگاه فلورانس، فرینز، ایتالیا

کلمات کلیدی:

پردازش زبان طبیعی، هادوپ، برچسب زنی بخشی- از-کلام، تجزه متن، خزنده وب، داده کاوی بزرگ، محاسبات موازی، سیستم های توزیع یافته

چکیده

فراگیری سریع و گشترده اطلاعات از طریق وب، انتشار و مقدار ساختار غیرطبیعی یک منبع متنی را افزایش داده است. علاقه زیادی در دهه گذشته برای کشف، دسترسی، و به اشتراک گذاری مانند توقف منبع دانش کشف شد. به همین دلیل، منبع بسیار بزرگ پردازش در یک چارچوب زمانی قابل قبول یک چالش بزرگ و نیاز دوره ای برای بسیاری از زمینه های تحقیقاتی و تجاری است.  سیستم های توزیع شده، خوشه های کامپیوتری و الگوهای محاسباتی موازی، در سالهای اخیر به سرعت استفاده شده اند، آنجایی که آنها پیشرفتهای قابل توجهی را برای عملکرد محاسباتی در زمینه های گسترده اطلاعاتی، همانند داده کاوی بزرگ و تحلیل معرفی کردند. پردازش زبان طبیعی و به ویژه وظایف متن یک نماد و استخراج ویژگی های کلیدی، یک ناحیه کاربردی با نیازهای محاسباتی بالا هستند، بنابراین، این وظایف به صورت قابل توجهی می توانند مزیت معماری های موازی را انجام دهند. این مقاله یک چارچوب توزیع شده را برای مرور اسناد وب و اجرای وظایف پردازش زبان طبیعی در یک حالت موازی بیان می کند. این سیستم براساس اکوسیستم هادوپ آپاچی است و الگوی برنامه نویسی موازی آن، map reduceنامیده می شود. به خصوص، ما اقتباسی از MAP REDUCE  کاربرد GATE  و چارچوب (یک ابزار منبع باز گسترده برای مهندسی متن و NLP) اجرا کردیم. اعتبار نیز با استفاده از راه حلی برای استخراج کلمات کلیدی و عبارات کلیدی اسناد وب در خوشه بندی هادوپ چند گره ای پیشنهاد می شود. ارزیابی عملکرد، به صورت مقیاس پذیری در مقابل یک مجموعه واقعی از صفحات وب و اسناد انجام شده است.

  1. مقدمه

بیان اطلاعاتی روز جوامع با مخزن داده های بسیار بزرگ مرتبط است (در قالب داده های عمومی و خصوصی، شامل محتوای تولید خودکار و انسانی). آمار گزارش دشه در سال 2014 توسط سازمان داده بین المللی (IDC)، توسط دنیای دیجیتال MC (EMC) پشتیبانی شده که ادعا می کند که دیجیتال هر دو سال دو برابر می شود، و به اندازه 40 زتا بایت خواهد رسید (بعنوان مثال، 40 تریلیون گیگا بایت) در سال 2020، از 4.4 زتا بایت در سال 2013.

A hadoop based platform for natural language processing of web pages and documents

Paolo Nesin,1, Gianni Pantaleo1, Gianmarco Sanesi1

ABSTRACT

The rapid and extensive pervasion of information through the web has enhanced the diffusion of a huge amount of unstructured natural language textual resources. A great interest has arisen in the last decade for discovering, accessing and sharing such a vast source of knowledge. For this reason, processing very large data volumes in a reasonable time frame is becoming a major challenge and a crucial requirement for many commercial and research fields. Distributed systems, computer clusters and parallel computing paradigms have been increasingly applied in the recent years, since they introduced significant improvements for computing performance in data-intensive contexts, such as Big Data mining and analysis. Natural Language Processing, and particularly the tasks of text annotation and key feature extraction, is an application area with high computational requirements; therefore, these tasks can significantly benefit of parallel architectures. This paper presents a distributed framework for crawling web documents and running Natural Language Processing tasks in a parallel fashion. The system is based on the Apache Hadoop ecosystem and its parallel programming paradigm, called MapReduce. In the specific, we implemented a MapReduce adaptation of a GATE application and framework (a widely used open source tool for text engineering and NLP). A validation is also offered in using the solution for extracting keywords and keyphrase from web documents in a multi-node Hadoop cluster. Evaluation of performance scalability has been conducted against a real corpus of web pages and documents.

Keywords:

Natural language processing

Hadoop

Part-of-speech tagging

Text parsing

Web crawling

Big Data Mining

Parallel computing

Distributed systems

© 2015 Elsevier Ltd. All rights reserved.

کد:9593

دانلود رایگان مقاله انگلیسی

رمز فایل :www.downloadmaghaleh.com

دانلود رایگان مقاله انگلیسی

 

نظری بدهید

3 + 18 =