万维易源使用帮助手册

[TOC] webapi是易源的一个html抓取转换产品,它可以根据规则,将获取到的html文本重构成您需要的数据格式,并为您提供api调用。 您可以使用我们的web2api转化几乎所有的网站为api,而且并不要求您会编程(高级的转化除外)。 #1. WEBAPI解决的问题 ##1.1. 帮助数据使用者容易地获取信息 网页HTML是非结构化的形式(HTML虽说是DOM形的结构,但是离清晰简单的结构化数据还是有很大差距。) 对于不少人来说,他们有分析资料的能力,但缺乏获取资料的方法,比如手动把网站资料录入excel,因为他们不知道如何把html抽取成可用的数据。而易源的webapi可以简化这件事,帮助您高效地利用数据。 ##2. 帮助用户构建API 比如A公司官网上有公告页面,通过WEBAPI可以把此页面转为API提供给第三方调用,从而可以轻易扩展手机APP、WAP版网站以及和企业合作者无缝交互数据。 #2. 常规数据抓取流程 如果我们需要在政府招标网站上,采集招标信息将其存入MySQL,通常做法是这样的: ![](https://oss.showapi.com/doc/3754/11/e7cb7da5ffe04090af5940dc58004127.png) 其中面临一些问题: ##2.1 解析复杂 各种编程语言提供DOM解析,可以获取节点值,但性能很低,而且通用性不够,因此大部份情况要配合正则解析。但是DOM和正则都有一定的学习曲线 ##2.2 不方便测试 在开发解析网页的程序时,每个字段、对象的解析生成,都需要在程序中断点,观察html及对应的解析结果,一个简单网页的解析需要花费不少的时间成本。 ##2.3 网页结构变更导致程序代码变更 目标URL返回的HTML并非一直不变,可能随着网站升级频繁变化。如果结构改变,那程序解析很可能报错而致流程中止,严重的会使客户端程序崩溃,因此客户端必须跟着网页变化而重新编码、打包、发布。 ##2.4 流量、并发控制 通常目标网页对访问流量、并发有一定的限制,如果自己控制访问,那就要编码实现并发控制。 ##2.5 日志记录 什么时候,什么IP访问了目标网页,出入参数分别是什么?这些日志都需要自己去打标和存储。 #3. 使用WEBAPI的解决方案 使用WEBAPI可以解决解析复杂、不方便测试、网页变更等问题。其使用流程如下: - 1.使用WEBAPI连接器对目标URl做解析配置;提交审核(审核通过后才可使用); - 2.创建一个接口API,在接口下创建接入点POINT; - 3.接入点配置时,选择【WEBAPI连接器】,再选择第1步骤中通过的配置。 - 4.可以调用POINT了。 整体结构如下图: ![](https://oss.showapi.com/doc/3754/11/90f814de38164a128146edc8afe13869.png)