ScrapeGraphAl AI爬虫

news/2024/9/28 20:09:39 标签: 人工智能, 爬虫

官网:https://scrapegraph-ai.readthedocs.io/en/latest/

from flask import Flask, request, jsonify
from scrapegraphai.graphs import SmartScraperGraph

app = Flask(__name__)

openai_key = "sk-xxxxxxxxxxxxxxxxxxxx"

graph_config = {
    "llm": {
        "api_key": openai_key,
        "model": "openai/gpt-4o",
    },
}


@app.route('/scrape', methods=['POST'])
def scrape():
    data = request.json
    source_url = data.get('source')

    if not source_url:
        return jsonify({"error": "No source URL provided"}), 400

    smart_scraper_graph = SmartScraperGraph(
        prompt="""请执行以下步骤:
    1. 仔细分析网页结构,识别并提取主要正文内容。
    2. 排除所有非正文元素,包括但不限于:导航菜单、侧边栏、页脚、广告、评论区、相关文章推荐等。
    3. 如果提取的正文内容超过14000个标记,请进行适当的总结,保留核心信息和主要观点。
    4. 直接返回处理后的正文内容或总结,不要添加任何额外的说明、标题或格式化。

    请确保返回的内容仅包含网页的实质性正文部分。""",
        source=source_url,
        config=graph_config
    )

    try:
        result = smart_scraper_graph.run()
        return jsonify({"result": result})
    except Exception as e:
        return jsonify({"error": str(e)}), 500


if __name__ == '__main__':
    app.run(host='0.0.0.0', port=5000, debug=True)

代码参考的官网示例,比较好用,不过3.5经常会因为文章超长而报错,即使我提示词中写明了超过14000则总结也经常出错,因此用4o是个不错的选择,牺牲小部分速度,换来高准度


http://www.niftyadmin.cn/n/5681765.html

相关文章

babylon.js-1:入门篇

最近项目中使用到了 Babylon.js 这门技术,从今天开始,抽取自己写的比较好的拿出来,作为分享案例: 记录学习成果通过笔记的方式记录技术积累方便工作中查找翻阅实现案例 是什么 Babylon.js是一个基于WebGL的开源3D渲染引擎&…

基于冲突动态监测算法的健身房预约管理系统

系统展示 用户前台界面 管理员后台界面 系统背景 随着健身热潮的兴起,健身房管理面临着日益增长的会员需求与资源分配的挑战。传统的人工预约方式不仅效率低下,且容易出现时间冲突和资源浪费的情况。为了解决这一问题,基于冲突动态监测算法的…

Python神经求解器去耦合算法和瓦瑟斯坦距离量化评估

🎯要点 神经求解器求解对偶方程,并学习两个空间之间的单调变换,最小化它们之间的瓦瑟斯坦距离。使用概率密度函数解析计算,神经求解器去耦合条件正则化流使用变量变换公式的生成模型瓦瑟斯坦距离量化评估神经求解器 &#x1f36…

最优化理论与自动驾驶(二-补充):求解算法(梯度下降法、牛顿法、高斯牛顿法以及LM法,C++代码)

在之前的章节里面(最优化理论与自动驾驶(二):求解算法)我们展示了最优化理论的基础求解算法,包括高斯-牛顿法(Gauss-Newton Method)、梯度下降法(Gradient Descent Metho…

在vscode在使用idea编辑器的快捷键

在vscode在使用idea编辑器的快捷键 在vscode扩展在搜索idea key结果如下: 选择IntelliJ IDEA Keybindings安装(注意作者是Keisuke Kato),安装后就可以在vscode编辑器中使用idea编辑器的快捷键。

《掌握Shell脚本:从入门到精通的实用指南》

目录 引言 一、Shell变量——数组 二、表达式与运算符——表达式 (一)算术表达式 (二)逻辑表达式 (三)算术运算符 (四)整数关系运算符 (五)字符串检测…

DTOF(direct Time-of-Flight,直接飞行时间)

一、基本概念 1.1 定义 dToF,即直接飞行时间(direct Time-of-Flight),是一种通过测量光脉冲发射出去并反射回来的时间差来直接计算距离的技术。 TOF应用场景非常多,电子消费品领域有人脸识别,照相机辅助对…

深度伪造语音检测(Deepfake Speech Detection, DSD)全面概述

近期,深度学习技术和神经网络在生成型人工智能领域已取得重大突破。如今,关键的通信媒介,如音频、图像、视频和文本,均能实现自动生成,并广泛应用于诸多领域,包括聊天机器人系统(如ChatGPT&…