BTC:深度：如何用机器学习来预测主流币的币价？_TET

机器学习技术在币种分析中的应用

谈到机器学习，大家可能会对这个AI方面的概念比较陌生，但如果提到谷歌AlphaGo，大家肯定就很熟悉了。当年谷歌人工智能程序通过机器学习的方式掌握围棋比赛技巧后，轻松击败了多个国家的围棋冠军，时隔3年世界冠军韩国李世石宣布退役时，还高呼AI不可战胜......通过机器学习训练后的计算机程序，在某些类似比赛和交易这样的博弈场景中，是比人类具有更高胜率的。

非小号研究本次就做了一个硬核的试验：将机器学习技术应用在币种分析中，看看会有什么好玩的结论，以及是否真的能够帮助我们判断、交易。

我们的具体课题是，通过现有的市场公开数据预测明日收益率为正还是为负。

这是一个二分类问题，我们可以使用的模型有很多，这里我们选用了以下模型用于实验：逻辑回归LR、线性判别分析LDA、二次判别分析QDA、支持向量机SVC、决策树DT、随机森林RF、渐变提升树GBC等。

本次用来试验的数据主要有三个方面：

链上分析师Tom Wan：第11大BTC持有者地址或属于Tether:金色财经报道，据21Shares母公司21co链上分析师Tom Wan披露数据显示，Tether的BTC余额较上季度增加1.76亿美元，使用截至6月30日的价格，估计他们持有约55,022BTC，此外，bc1qjas开头的地址可能属于Tether。

上一季度，Tether的估计余额为15亿美元，相当于约53490枚BTC；bc1qjas的钱包持仓量与Tether的季度持仓量相符，该地址的BTC余额每个季度都会增加，截至3月30日有53490万枚BTC，截至6月30日有55020枚BTC。

目前有1个BTC地址与Tether的余额相匹配，假设Tether将所有比特币存储在一个地址中，那么bc1qjas开头地址将是最有可能属于Tether地址。这个地址现在是第11大BTC持有者。[2023/8/4 16:18:23]

1、资产的历史数据；

2、相关品种，如黄金原油美国三大股指等；

无代码NFT平台 Vibe 完成 400 万美元融资:金色财经报道，提供从 NFT 到产品的解决方案的平台 Vibe 完成 400 万美元融资， Alchemy 的风险投资部门 Aglaé Ventures 和 K-Pop 艺术家 Psy 的音乐品牌 P Nation 等参投。[2023/5/4 14:43:08]

3、币圈相关币种数据，主要是主流币。

完整的机器学习建立流程

1.首先，特征工程

特征工程是机器学习中最关键的步骤，没有之一。

这有别于大众认知的AI能解决一切问题，人工智能是万能的认知。真实的情况是数据科学家们常挂在嘴边的一句话是“输入的是垃圾，输出的也一定是垃圾”，这意味着特征工程做得好不好会直接影响AI的“智商”。

特征工程不止是数据需要清洗重新组合，还需要将数据进行标准化处理。

2.其次，建模

建模是一个简单的过程，模型在那里，无非是灌入数据后不断地调参优化。国内很多大互联网公司的AI团队也都是在常用模型中选择靴子不断优化，大家的过程都是一样的，没有什么捷径。

3.评价模型效果

模型的效果评估有很多，常见的有MSE，MAE，取代矩阵，ROC等。

4.最终，应用

当模型对数据的可解释度良好时，模型可用。一般这个可解释度要达到80％以上，90％以上更好，但如果100％可解释就需要注意是否出错了。

对BTC的解释性

数据一

仅有高开低收量，及高开低收量计算的技术指标作为训练数据。得到各个模型解释度如下表所示：

由上表可以得到，单纯的用高开低收量和技术指标作为特征，在以上机器学习模型中训练，无法很好地解释价格。其实仅从这里就能看出币圈属于弱势有效市场。技术分析得到的尺度是判断二分类正确概率是50％，即模型无效，也与弱势有效市场中技术分析无效，基本面分析和内幕信息有效相吻合。

市场包含三种信息：历史信息，公开信息和内幕信息。

各种信息分别对应不同分析交易策略：历史信息对应技术分析；公开信息对应的基本分析；内幕信息对应的内幕交易。

当市场有效时，市场已反映三种信息，故对三种信息的分析均值不能在市场获得优势，某种分析和交易策略均值无效；当市场为半强势有效时，市场已反映公开信息和历史信息，故技术分析和基本分析无效，内幕交易有效；当市场为弱有效市场时，市场只反映历史信息，故技术分析无效，基本分析和内幕交易有效。

数据二

不但有高开低收量数据，我们还增加了相关品种的数据，如美国三大股指，黄金，原油，币圈主流币种等作为训练数据。

为什么认为美国三大股指，黄金，原油，币圈其他主流币种等数据可以插入基本面数据？

虽然这些因素不是直接影响BTC的基本面因素，但是它们和BTC由相同的基本面因素影响，所以这些数据中包含很少的一部分基本面信息。

由上表可以得知：在增加基本面替代特征后，解释度提升了10％以上。

那么提高多少可解释度是模型极限？

经过1000次的实验得到，当随机因子为1730时，随机森林RF模型的可解释度67％，这是所有实验中所有模型中可解释度最高的一组。

模型效果的衡量：

混淆矩阵

混淆矩阵就是分别统计分类模型归错类，归对类的观测值个数，然后把结果放在一个表里展示出来。这个表就是混淆矩阵，把预测情况与实际情况的所有结果两两混合，结果就会出现以下几种情况，就组成了混淆矩阵。如下：

ROC曲线

ROC曲线，又称接受者操作特征曲线。该曲线最早应用于雷达信号检测领域，用于区分信号与噪声。后来用于评价模型的预测能力，ROC曲线是基于混淆矩阵得出的。

ROC曲线中的主要两个指标就是真正率和假正率，其中横坐标为假正率，纵坐标为真正率，下面就是一个标准的ROC曲线图。

横轴FPR:1-TNR,1-Specificity，FPR越大，预测正类中实际负类越多。

纵轴TPR：Sensitivity(正类覆盖率),TPR越大，预测正类中实际正类越多。

为什么解释性不强？

1.交易量数据造假

2.未有数据披露制度约束，未形成一体的基本面数据

3.市场有可能存在内幕信息

目前我们模型中的数据还不够全面，仍然需要更多的努力揭示更多的基本面信息，才能更好地解释BTC价格。

在披露更多信息时，才能促进市场效率的提高，促进币圈的发展，这也是“非小号”作为机构应该做且做好的事情。

是否有使用价值？

虽然机器学习在解决传统问题时都要求正确率达到80%甚至90%以上才可以使用，但是我们能否使用一个解释度在60%-70%之间的模型？

-1.模型是有解释度的，60%也远高于50%，长期预测胜率显著高于50%的多空各一半的平均水平，这有点类似庄家在轮盘中有概率优势一样，时间越久赢面越大；

-2.加入限制条件时可以提高概率，单次若想取得概率优势只能限制使用条件

如下所示为决策树输出的树形图，用红色框起来的枝杈正确率很高，但是只有满足层层条件后才会有交易机会。为了达到盈利目的，交易者要在交易机会与单次交易盈利水平中找到平衡点。

单个树杈局部图如下所示，当满足红框圈住的条件时，正确率提高到93%，这完全达到了使用要求：

对ETH和TRX的解释性

从模型训练结果看，已知特征使用以上模型训练时，可解释度也在60%-70%之间。下面我们列举一些有价值的树杈，树杈概率的提高是基于条件概率提升的。

ETH

由以下ETH树形图可以看出，当同时满足条件

美元比eth收盘价<0.01,eth昨日成交量<3956783616,原油成交量>117392.5,涨跌幅>0,黄金开盘价<1489.25时,时，有93%的正确率，这时交易机会是总交易机会的19.05%(28/147)。

TRX

由以下TRX树形图可以看出，当同时满足条件bch<289.51，bsv>63.5,美元比eth调整后收盘价>0.01,纳指收盘价<8371.12,道指最低价>24290.5,美元比eth收盘价>0.01,瑞波币收盘价<0.32时，有82%的正确率，这时交易机会是总交易机会的23.68(36/152)。

如果以上使用机器学习来分析不同币种交易机会的流程没看懂，也没有关系，涉及到的知识比较复杂。所以，非小号后期将应用很多大数据或AI等技术帮助大家建立分析模型，直接在APP中为大家提供易懂和好用的币价预测工具或投资策略参考，一键体验。

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，多谢。

火币下载MAC:「易天说」比特币是要开始反转了吗？昨日惊现“V”字形态_APH

独家原创丨比特币是要开始反转了吗？昨日惊现“V”字形态大家好,我是你们的朋友易天(aphz8705).

火币交易所虎符将于9月5日22:00正式上线AGS(Aegis)

尊敬的虎符用户：虎符将于2020年9月5日22:00(UTC8)重磅上线AGS/USDT和AGS/ETH交易对.

聚币HER:小安教你认币圈，新手必看_btc兑换人民币汇率查询

币圈是什么意思？所谓的币圈,即数字货币玩家天然形成的圈子。币圈不大,但是人数也不算少,而且在人群中基本上属于小众异类,但林林总总算是一个圈子,赚钱的人不多,形形色色的赚钱方式也都被迅速地拷贝过.

聚币USDT:三生万物之诸神之战，参与瓜分4000 USDT_USDG币

亲爱的库币用户：库币即将迎来成立三周年庆典！庆典期间库币将上线“收益率大赛”,在活动期间,我们将每日对成功报名用户的币币账户进行收益率排名,邀请新老用户瓜分4000USDT总奖池.

大币网

BTC:深度：如何用机器学习来预测主流币的币价？_TET

大币网