参数说明
1.基础参数
不同爬虫的参数就是context中不同,需要包含在里面
参数名 | 描述 | 类型 | 是否必填 |
locale | 语言/地区设置(如 "en-US") | string | 否 |
source | 数据源类型, | string | 是 |
geo | 地区 | string | 否 |
format | 需要的返回格式 | []string | 否 |
js_render | 是否开启js渲染 false:禁用 true:启动 默认为(false) |
boll | 否 |
context | 查询上下文容器 | object | 是 |
2..Youtube抓取参数
功能名称 | 参数名 | 描述 | 类型 | 是否必填 |
YouTube-视频详情 | url_list ├─ url |
视频 URL 列表,数组,包含多个视频对象 | array<object> | 是 |
单个 YouTube 视频链接 | string | 是 | ||
Youtube-视频搜索 | keyword | 搜索关键词 | string/null | 是 |
continuation | 搜索结果分页游标(用于获取更多结果) | string/null | 否 | |
Youtube-视频字幕 | url | YouTube 视频完整链接 | string/null | 是 |
output_format | 字幕输出格式,目前支持 "srt" | string | 否 | |
Youtube-用户信息获取 |
url_list
|
用户主页 URL 列表,包含多个用户对象 | array<object> | 是 |
单个 YouTube 用户主页链接 | string | 是 |
下面以 YouTube 抓取字幕为例:
"request_example": {
"locale": "en",
"context": {
"video_url": "https://www.youtube.com/watch?v=N0p05Tq7oq0",
"output_format": "srt"
}
}
youtube字幕下载
3..Facebook抓取参数
功能名称 | 参数名 | 描述 | 类型 | 是否必填 |
Facebook-用户资料 | url_list | List of Facebook user or page URLs to extract profile information from | list | 是 |
list | A valid Facebook profile or page URL | string | 是 |
这里以抓取FB用户信息为例:
"request_example": {
"locale": "en-US",
"source": "facebook_user_profile",
"context": {
"url_list": [
{
"url": "https://www.facebook.com/zuck/"
}
]
}
}
4.亚马逊抓取参数
功能名称 | 参数名 | 描述 | 类型 | 是否必填 |
Amazon-商品搜索 | keyword_list ├─ keyword |
搜索关键词列表,支持多个关键词抓取 | list (object[]) | 是 |
要抓取的单个搜索关键词 | string | 是 | ||
start_pages | 起始页码,从第几页开始抓取(如第一页为 1) | number | 否 | |
pages | 抓取页数,一共抓取几页数据 | number | 否 | |
Amazon-最佳卖家 | category_list ├─ category_id |
类别 ID 列表,数组,包含多个类别对象 | array<object> | 是 |
类别唯一标识 | string | 是 | ||
start_page | 起始页码,从第几页开始抓取 | integer | 否 | |
pages | 总抓取页数,抓取多少页 | integer | 否 | |
亚马逊商品评论 | product_url_list ├─ product_url |
商品 URL 列表,包含多个商品对象 | array<object> | 是 |
单个商品的 URL | string | 是 | ||
亚马逊商品详情 | product_url_list ├─ product_url |
商品 URL 列表,包含多个商品对象 | array<object> | 是 |
单个商品的 URL | string | 是 |
这里以抓取amazon商品关键词为例:
"request_example": {
"geo": "US",
"format": false,
"locale": "en-US",
"source": "amazon_search",
"context": {
"pages": 2,
"start_page": 1,
"keyword_list": [
{
"keyword": "1077068"
}
]
},
"js_render": false
}
5.TikTok抓取参数
功能名称 | 参数名 | 描述 | 类型 | 是否必填 |
TK 视频搜索 | keyword | 搜索关键词,系统将根据该关键词查找视频 | string | 是 |
TK评论 | video_id | 抖音视频 ID,用于定位视频 | string | 是 |
cursor | 游标,用于分页获取更多回复 | string | 否 | |
count | 每页返回的回复数量限制 | integer | 否 | |
TK用户信息搜索 | url_list ├─ user_url |
用户 URL 列表,数组,包含多个用户对象 | array<object> | 是 |
单个 TikTok 用户主页 URL | string | 是 |
这里以抓取TK视频信息为例:
"request_example": {
"source": "tiktok_video",
"context": {
"sec_uid": "911proxy"
}
}
6.X抓取参数
功能名称 | 参数名 | 描述 | 类型 | 是否必填 |
X推文信息 | user_id | Twitter 用户的 ID,用于获取该用户的推文 | string | 是 |
这里以抓取X推文信息为例:
"request_example": {
"locale": "en-US",
"source": "twitter_tweets",
"context": {
"url_list": [
{
"tweet_id": "44196397"
}
]
}
}
7.Google抓取参数
功能名称 | 参数名 | 描述 | 类型 | 是否必填 | 可选项 |
谷歌职位搜索 | job_name | 职位名称关键字 | string | 是 | - |
job_location_list ├job_location |
地点列表 | array<object> | 否 | - | |
experiences | 工作经验筛选值 | array<string> | 否 | INTERN_AND_APPRENTICE EARLY MID ADVANCED DIRECTOR_PLUS |
|
has_remote | 是否远程职位 | boolean | 否 | - | |
skills | 技能关键词(英文逗号分隔) | string | 否 | - | |
degree | 学历筛选值 | array<string> | 否 | PURSUING_DEGREE ASSOCIATE BACHELORS MASTERS DOCTORATE |
|
employment_type | 职位类型 | array<string> | 否 | FULL_TIME PART_TIME TEMPORARY INTERN |
|
sort_by | 排序字段(相关性/时间) | string | 否 | relevance date |
|
page | 分页页码(从1开始) | integer (建议) / string | 否 | - | |
谷歌活动 | keywords_list | 关键词列表(数组,包含 keyword 字段) | array<object> | 是 | - |
start_page | 起始页码(从第几页开始抓取) | integer | 否 | - | |
end_page | 结束页码(抓取到第几页为止) | integer | 否 | - | |
谷歌图片 | keywords_list ├keyword |
关键词对象数组,用于指定搜索关键词 | array<object> | 是 | - |
搜索关键词 | string | 是 | - | ||
start_page | 起始页码(抓取从第几页开始) | integer / null | 否 | - | |
end_page | 结束页码(抓取到第几页为止) | integer / null | 否 | - | |
谷歌自动联想词 | keywords_list ├keyword |
关键词对象数组 | array<object> | 是 | - |
搜索关键词,用于获取自动补全建议 | string | 是 | - | ||
谷歌财经 | keywords_list ├keyword |
关键词对象数组 | array<object> | 是 | - |
搜索关键词(如公司名、股票代码等) | string | 是 | - | ||
谷歌搜索 | keywords_list ├keyword |
搜索关键词对象数组 | array<object> | 是 | - |
搜索关键词字符串(如产品名、品牌名等) | string | 是 | - | ||
start_page | 起始搜索结果页码,从第几页开始搜索(如 1) | int/null | 否 | - | |
end_page | 结束搜索结果页码,到第几页结束搜索(如 3) | int/null | 否 | - |
这里以抓取 google job为例:
"request_example": {
"locale": "en-US",
"source": "google_job_search",
"context": {
"page": "1",
"degree": "BACHELOR",
"skills": "python, sql",
"sort_by": "date",
"job_name": "software engineer",
"locations": [
{
"location": "London"
}
],
"has_remote": true,
"experience_list": [
{
"experience": "MID"
}
],
"employment_type_list": [
{
"employment_type": "FULL_TIME"
}
]
}
},
"response_example": {
"result": [
{
"job_href": "jobs/results/108913291534705350-senior-software-engineer-generative-ai-google-workspace?q=Software&has_remote=true&page=1",
"job_title": "Senior Software Engineer, Generative AI, Google Workspace",
"job_detail": "Minimum qualifications....",
"job_remote": "Remote eligible",
"job_company": "Google",
"job_location": "New York, NY, USA; Boulder, CO, USA; +4 more; +3 more"
}
]
}