ScrapeGraphAI - LLM and Graph Powered Web Scraping Python Library ๐
ScrapeGraphAI is a robust web scraping Python library that employs Large Language Models (LLM) and direct graph logic to create scraping pipelines for websites, documents, and XML files.
Unlike rigid methods that rely on predefined patterns or manual adjustments, ScrapegraphAI dynamically adapts to variations in website structures.
โโโโโโโ
โ๏ธFeatures:
โ Direct Graph Logic:
This feature leverages a graph-based approach to dynamically create scraping pipelines, ensuring efficient data retrieval based on user-defined prompts.
โ LLM Integration:
By integrating Large Language Models (LLMs), ScrapeGraphAI interprets user inputs and automates data extraction, removing the need for manual coding.
โ Multiple AI Platform Support:
Whether you prefer models from OpenAI, Azure, or Groq, ScrapeGraphAI supports integration with specific API keys and configurations, offering flexibility and choice.
โ SpeechGraph
ScrapeGraphAI can scrape information and convert it into voice audio. This unique feature allows providing an accessible and convenient way to interact with the extracted data.
โ OmniScraperGraph
An evolution of SmartScraperGraph equipped with image description capabilities. This enhancement enables users to extract images from single web pages and obtain accurate descriptions, enriching the dataset with valuable visual information. (GPT-4o only)
โโโโโโโ
Simple Setup and Configuration
Setting up ScrapeGraphAI is straightforward: There is an app made by streamlit.
Original Article : https://medium.com/@amanatulla1606/llm-web-scraping-with-scrapegraphai-a-breakthrough-in-data-extraction-d6596b282b4d
Translate to Korean
ScrapeGraphAI๋ LLM(Large Language Models) ๋ฐ ์ง์ ๊ทธ๋ํ ๋ก์ง์ ์ฌ์ฉํ์ฌ ์น ์ฌ์ดํธ, ๋ฌธ์ ๋ฐ XML ํ์ผ์ ๋ํ ์คํฌ๋ํ ํ์ดํ๋ผ์ธ์ ์์ฑํ๋ ๊ฐ๋ ฅํ ์น ์คํฌ๋ํ Python ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ ๋๋ค.
์ฌ์ ์ ์๋ ํจํด์ด๋ ์๋ ์กฐ์ ์ ์์กดํ๋ ๊ฒฝ์ง๋ ๋ฐฉ๋ฒ๊ณผ ๋ฌ๋ฆฌ ScrapegraphAI๋ ์น์ฌ์ดํธ ๊ตฌ์กฐ์ ๋ณํ์ ๋์ ์ผ๋ก ์ ์ํฉ๋๋ค.
โโโโโโโ
โ๏ธ๊ธฐ๋ฅ:
โ ์ง์ ๊ทธ๋ํ ๋ก์ง:
์ด ๊ธฐ๋ฅ์ ๊ทธ๋ํ ๊ธฐ๋ฐ ์ ๊ทผ ๋ฐฉ์์ ํ์ฉํ์ฌ ์คํฌ๋ํ ํ์ดํ๋ผ์ธ์ ๋์ ์ผ๋ก ์์ฑํ์ฌ ์ฌ์ฉ์ ์ ์ ํ๋กฌํํธ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํจ์จ์ ์ธ ๋ฐ์ดํฐ ๊ฒ์์ ๋ณด์ฅํฉ๋๋ค.
โ LLM ํตํฉ:
ScrapeGraphAI๋ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ ํตํฉํ์ฌ ์ฌ์ฉ์ ์ ๋ ฅ์ ํด์ํ๊ณ ๋ฐ์ดํฐ ์ถ์ถ์ ์๋ํํ์ฌ ์๋ ์ฝ๋ฉ์ ํ์์ฑ์ ์ ๊ฑฐํฉ๋๋ค.
โ ๋ค์ค AI ํ๋ซํผ ์ง์:
OpenAI, Azure ๋๋ Groq์ ๋ชจ๋ธ์ ์ ํธํ๋์ง ์ฌ๋ถ์ ๊ด๊ณ์์ด ScrapeGraphAI๋ ํน์ API ํค ๋ฐ ๊ตฌ์ฑ๊ณผ์ ํตํฉ์ ์ง์ํ์ฌ ์ ์ฐ์ฑ๊ณผ ์ ํ๊ถ์ ์ ๊ณตํฉ๋๋ค.
โ ์คํผ์น๊ทธ๋ํ
ScrapeGraphAI๋ ์ ๋ณด๋ฅผ ๊ธ์ด ์์ฑ ์ค๋์ค๋ก ๋ณํ ํ ์ ์์ต๋๋ค. ์ด ๊ณ ์ ํ ๊ธฐ๋ฅ์ ํตํด ์ถ์ถ๋ ๋ฐ์ดํฐ์ ์ํธ ์์ฉํ ์ ์๋ ์ก์ธ์ค ๊ฐ๋ฅํ๊ณ ํธ๋ฆฌํ ๋ฐฉ๋ฒ์ ์ ๊ณตํ ์ ์์ต๋๋ค.
โ ์ด๋์คํฌ๋ ์ดํผ๊ทธ๋ํ
์ด๋ฏธ์ง ์ค๋ช ๊ธฐ๋ฅ์ ๊ฐ์ถ SmartScraperGraph์ ์งํ. ์ด ํฅ์๋ ๊ธฐ๋ฅ์ ํตํด ์ฌ์ฉ์๋ ๋จ์ผ ์น ํ์ด์ง์์ ์ด๋ฏธ์ง๋ฅผ ์ถ์ถํ๊ณ ์ ํํ ์ค๋ช ์ ์ป์ ์ ์์ผ๋ฏ๋ก ๊ท์คํ ์๊ฐ์ ์ ๋ณด๋ก ๋ฐ์ดํฐ ์ธํธ๋ฅผ ๊ฐํํ ์ ์์ต๋๋ค. (GPT-4o๋ง ํด๋น)
โโโโโโโ
๊ฐ๋จํ ์ค์ ๋ฐ ๊ตฌ์ฑ
ScrapeGraphAI๋ฅผ ์ค์ ํ๋ ๊ฒ์ ๊ฐ๋จํฉ๋๋ค: streamlit์์ ๋ง๋ ์ฑ์ด ์์ต๋๋ค.
Original Article : https://medium.com/@amanatulla1606/llm-web-scraping-with-scrapegraphai-a-breakthrough-in-data-extraction-d6596b282b4d