Apache Spark

உங்களுடைய சந்தேகங்கள் கேள்விகளை எங்களுடன் பகிர்ந்து கொள்ளுங்கள்

பதிவுசெய்க
Apache Spark
Laveena Rajendran | Developer & Writter

What Is Apache Spark?

Apache Spark என்பது big data workloadsகளுக்கு பயன்படுத்தப்படும் ஒரு open source analytics engine ஆகும். இது இரு batchesகளையும், real-time analytics மற்றும் data processing workloadsஐயும் கையாள முடியும். Apache Spark Berkeleyஇன் California பல்கலைக்கழகத்தில் ஒரு research projectஆக 2009 இல் தொடங்கியது. Hadoop systemsகளில் processing jobsகளை விரைவுபடுத்துவதற்கான வழியை ஆராய்ச்சியாளர்கள் தேடிக்கொண்டிருந்தனர். இது Hadoop MapReduceஐ அடிப்படையாகக் கொண்டது, மேலும் இது MapReduce modelஐ பல வகையான computationsகளுக்கு திறம்பட பயன்படுத்த விரிவாக்குகிறது, இதில் interactive queries மற்றும் stream processing ஆகியவை அடங்கும்.

Java, Scala, Python, and R programming languagesகளுக்கு Spark native bindingsகளை வழங்குகிறது. கூடுதலாக, machine learning [MLlib], stream processing [Spark Streaming] மற்றும் graph processing [GraphX] ஆகியவற்றிற்கான உருவாக்க பயன்பாடுகளை ஆதரிக்க பல libraries இதில் அடங்கும். Apache Spark Spark Core மற்றும் librariesகளின் தொகுப்பைக் கொண்டுள்ளது. Spark Core Apache Sparkஇன் இதயம் மற்றும் distributed task transmission, scheduling, and I/O functionalityஐ வழங்குவதற்கான பொறுப்பு ஆகும்.

Spark Core engine அதன் அடிப்படை data வகையாக ஒரு Resilient Distributed Dataset (RDD) கருத்தை பயன்படுத்துகிறது. RDD வடிவமைக்கப்பட்டுள்ளது, எனவே இது computational complexityஐ அதன் usersகளிடமிருந்து மறைக்கும். dataஇல் செயல்படும் Spark intelligent ஆனது; data and partitions ஒரு server cluster முழுவதும் தொகுக்கப்படுகின்றன, பின்னர் அதைக் கணக்கிட்டு வேறு data storeக்கு நகர்த்தலாம் அல்லது analytic model மூலம் இயக்கலாம்.

 

 

 

 

 

 

 

 

 

 

Apache Sparkஇன் நன்மைகள்

Speed

multiple parallel operationsகளில் memoryஇல் dataஐத் caching செய்து வைப்பதன் மூலம் Spark மிக வேகமாக இயங்குகிறது. Sparkஇன் முக்கிய அம்சம் அதன் in-memory engine ஆகும், இது processing speedஐ அதிகரிக்கிறது; in-memoryஇல் செயலாக்கும்போது MapReduce ஐ விட 100 மடங்கு வேகமாகவும், பெரிய அளவிலான data processing இற்கு வரும்போது diskஇல் 10 மடங்கு வேகமாகவும் இருக்கும். disk operationsகளுக்கு reading/writing எண்ணிக்கையை குறைப்பதன் மூலம் Spark இதை சாத்தியமாக்குகிறது.

Real-time stream processing

Apache Spark பிற frameworksகளின் ஒருங்கிணைப்புடன் real-time streamingஐக் கையாள முடியும். Spark mini-batchesகளில் dataஐ உட்கொள்கிறது மற்றும் அந்த mini-batches dataகளில் RDD transformationsகளைச் செய்கிறது.

Supports Multiple Workloads

Apache Spark interactive queries, real-time analytics, machine learning, and graph processing உள்ளிட்ட multiple workloadsகளை இயக்க முடியும். ஒரு application multiple workloadsகளை தடையின்றி இணைக்க முடியும்.

Increased Usability

பல programming languagesகளை support செய்வதால் அது மாறும் திறனைக் கொண்து. Java, Scala, Python, and R ஆகியவற்றில் applicationsகளை விரைவாக எழுத இது உங்களை அனுமதிக்கிறது; உங்கள் applicationsகளை உருவாக்குவதற்கு variety of languagesகளை உங்களுக்கு வழங்குகிறது.

Advanced Analytics

Spark SQL queries, machine learning, stream processing, and graph processingஐ support செய்கிறது.

Limitations of Apache Spark

No File Management System

Apache Sparkஇற்கு அதன் own file management system இல்லை, எனவே இது Hadoop போன்ற வேறு சில platformகளை அல்லது மற்றொரு  cloud-based platformஐ நம்பியுள்ளது, இது Sparkஇல் அறியப்பட்ட சிக்கல்களில் ஒன்றாகும்.

விலை உயர்ந்தது

memoryஇல் dataவை வைத்திருப்பது மிகவும் விலை உயர்ந்தது, memory consumption மிக அதிகமாக உள்ளது, மேலும் இது user-friendly முறையில் கையாளப்படுவதில்லை என்பதால் big dataஇன் cost-efficient processingஐ நாம் விரும்பும்போது In-Memory capability ஒரு இடையூறாக மாறும். Apache Sparkஇல் memoryஇல் இயங்க நிறைய RAM தேவைப்படுகிறது, இதனால் Sparkஇன் விலை மிகவும் அதிகமாக உள்ளது.

 Less number of Algorithms

Tanimoto தூரம் போன்ற கிடைக்கக்கூடிய பல algorithmsகளின் அடிப்படையில் Spark MLlib பின்தங்கியிருக்கிறது.

Manual Optimization

Spark job manually optimizedஆக இருக்க வேண்டும் மற்றும் குறிப்பிட்ட datasetsகளுக்கு போதுமானது. Sparkஇல் partition and cache சரியாக இருக்க விரும்பினால், அதை manualஆகக் கட்டுப்படுத்த வேண்டும்.

Iterative Processing

Sparkஇல், data batchஆக மீண்டும் நிகழ்கிறது மற்றும் ஒவ்வொரு iterationஉம் திட்டமிடப்பட்டு தனித்தனியாக செயல்படுத்தப்படும்.

There are no comments yet.
Authentication required

You must log in to post a comment.

Log in
தேட