买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:一种用于识别和表征数据流中包含的信号的方法、系统和装置,包括编码在计算机存储介质上的计算机程序。方法中的一种包括:获得在相关时间段内的与主题相关联的事件计数的历史时间分布;提取事件计数的历史时间分布的可预测部分,以产生包括连续时间的剩余事件计数的剩余事件计数时间分布;基于剩余事件计数时间分布确定剩余触发阈值;以及当剩余事件计数超过剩余触发阈值时采取动作。该动作可以包括向用户提供与主题相关联的事件计数的激增的通知。
主权项:1.一种用于识别和表征数据流中包含的信号的系统,包括:一个或多个计算机和一个或多个存储设备,在所述一个或多个存储设备上存储指令,所述指令当被所述一个或多个计算机运行时,可操作以使得所述一个或多个计算机执行包括以下的操作:接收查询;获得对在过去时间段中的多个相等时间间隔中的每一个内的与接收到的查询相关联的微博的数量进行计数的历史微博计数时间序列;将所述历史微博计数时间序列提供给机器学习预测模型,所述机器学习预测模型在历史微博计数时间序列集上被训练,以针对给定的输入微博计数时间序列输出未来时间间隔内与给定查询相关联的微博的预测数量;响应于向所述机器学习预测模型提供所述历史微博计数时间序列,从所述机器学习预测模型接收在未来时间间隔内与所述接收到的查询相关联的微博的预测数量;基于在未来时间间隔内与所述接收到的查询相关联的微博的所述预测数量确定残差触发阈值,确定所述残差触发阈值包括:确定微博时间序列的微博的实际计数;确定与所述接收到的查询相关联的残差的时间序列,所述残差的时间序列中的每个相应残差为所述微博时间序列的实际计数中的相应实际计数与未来时间间隔内微博的相应预测数量之间的差;以及基于所述残差的时间序列确定所述残差触发阈值;以及当与所述接收到的查询相关联的微博的数量超过所述残差触发阈值时,提供表示微博内容的数据以用于显示作为所述查询的搜索结果的一部分,其中,确定残差触发阈值至少部分基于预测数量的中值和预测数量的方差的测量。
全文数据:用于识别和表征数据流中包含的信号的系统和方法技术领域本说明书涉及用于识别和表征数据流中包含的信号的系统和方法,诸如包含在数据流与主题相关联的相关时间段内的数据流的时间序列中的信号。背景技术个体使用设备对他们生活的许多方面以及越来越多的事件和主题进行数字记录。这样的个体经由物联网,使用诸如移动电话、平板电脑、笔记本电脑或台式电脑等各种设备,以及使用相机或诸如可穿戴传感器的其他传感器进行数字记录。因此,当正在发生的developing事件或观点反映在数字媒体中时,可以了解到其。事实上,有必要也有机会经由数字媒体准确地以及尽早地检测正在发生的事件诸如正在发生的新闻,并能够向用户提供这种信息。发明内容本说明书描述了用于识别和表征数据流中包含的信号的技术,诸如包含在相关时间段内的与查询相关联的微博的微博计数的时间序列中的信号。一般而言,本说明书中描述的主题的一个创新方面可以体现在包括以下动作的方法中:获得在相关时间段内的与主题相关联的事件计数的历史时间分布;提取事件计数的历史时间分布的可预测部分,以产生包括连续时间的剩余事件计数的剩余事件计数时间分布;基于剩余事件计数时间分布确定剩余触发阈值;以及当剩余事件计数超过剩余触发阈值时采取动作。该动作可以包括向用户提供与主题相关联的事件计数的激增spike的通知。在一个实施例中,事件可以是微博,并且动作可以是转发数据以显示微博数据作为搜索结果的一部分。本说明书中描述的主题的另一个创新方面可以体现在包括以下动作的方法中:接收查询;获得在相关时间段内的与查询相关联的微博的微博计数时间序列;提取微博计数时间序列的可预测部分,以产生相关时间段内的剩余微博计数时间序列,该剩余微博计数时间序列包括连续时间的剩余微博计数;基于剩余微博计数时间序列确定剩余触发阈值;以及当剩余微博计数超过剩余触发阈值时,转发数据以显示作为对于给定查询的搜索结果的一部分的微博内容。前述和其他实施例中可以各自可选地单独地或组合地包括以下特征中的一个或多个。特别地,一个实施例包括组合的所有以下特征。该方法可以包括使用机器学习模型来预测微博计数时间序列的可预测部分。微博计数可以是推特平台上提供的推特的计数。作为本说明书中描述的方法的结果,该方法在超量的微博计数掉落到所述阈值之下之后,停止插入微博内容作为查询的搜索结果的一部分达指定时间。微博计数时间序列的相关时间段在1至7天之间。确定剩余触发阈值至少部分基于剩余时间序列的中值和剩余时间序列的方差的测量。该方法还包括:向用户传达剩余微博计数反映应该通知用户的事件的置信度度量,该置信度度量至少部分基于剩余微博计数超过触发阈值的程度。确定剩余触发阈值可以至少部分基于剩余时间序列的中值和剩余时间序列的方差度量。该方法还可以包括向用户传达剩余微博计数反映应该通知用户的事件的置信度度量,该置信度度量至少部分基于剩余微博计数超过触发阈值的程度。该方法还可以包括在确定是否提供附加微博内容作为查询的搜索结果的一部分时,将用户交互与所提供的微博内容合并。该方法还包括将微博计数时间序列限制到来自特定位置的微博。该方面的其他实施例包括对应的计算机系统、装置和记录在一个或多个计算机存储设备上的计算机程序,每个都被配置为执行这些方法的动作。对于要被配置为执行特定的操作或动作的一个或多个计算机的系统,这意味着系统已经在其上安装了软件、固件、硬件或它们的组合,这些软件、固件、硬件或它们的组合在操作中使得系统执行操作或动作。对于要被配置为执行特定操作或动作的一个或多个计算机程序,这意味着该一个或多个程序包括指令,当该指令被数据处理装置执行时,使得该装置执行操作或动作。本说明书中描述的主题可以在特定实施例中实施,以便实现以下优点中的一个或多个。通过更早和更准确地接收正在发生的事件的新闻,用户可以更高效、和以更及时的方式地获得信息。取决于上下文,及时接收正在发生的新闻和群众的智慧是非常有利的。另外,及时准确地传递正在发生的事件的通知可以减少查找关于正在发生的事件的信息的搜索次数,从而节省计算资源并释放网络带宽以达到更高效的目的。此外,微博用户和其他出版商获得了回报,因为他们的内容可以立即接触到广泛、积极和合适的观众。这鼓励更多的人和组织使用微博,并且更快、更准确地使用微博,这对信息和交流通常是有利的。本说明书主题的一个或多个实施例的细节在附图和以下描述中阐述。从说明书、附图和权利要求书中,主题的其他特征、方面和优点将变得显而易见。附图说明图1是用于识别和表征数据流中包含的信号的系统的示意图。图2是用于识别和表征数据流中包含的信号的方法的流程图。图3是用于识别和表征数据流中包含的信号的替代方法的流程图。图4示出了匹配查询的事件的事件计数时间序列数据的两个图表。图5示出了匹配另一查询的事件的事件计数时间序列数据的两个图表,并且其中这些图表揭示了当使用图2的方法时避免触发较慢的增加。图6是嵌入响应于查询而提供的搜索结果页面中的事件轮播carousel的示例。各种附图中类似的附图标号和名称指示类似的元件。具体实施方式确定何时向搜索引擎平台或其他在线平台的用户通知正在发生的事件是具有挑战性的。这样的平台应该在准确的同时尽早通知用户,为用户提供上下文,而不是提供错误的通知。本说明书中描述的实施例提供了一种机器学习方法,该方法对匹配给定查询的近实时的事件计数例如,推特tweet计数的历史进行建模,以决定激增spike何时发生。这种方法的优点是更早、并且更准确地检测突发新闻。更具体地,当这种时间序列的模型可用时,可以改进基于原始时间序列触发近实时事件计数例如,推特计数的激增的通知。如上所述,很难预测应该触发动作的趋势活动,诸如给用户的通知。本说明书中描述的实施例通过首先预测数据计数例如,微博计数在“常规”情况下会是什么来解决这个问题,即实施例提取微博计数时间序列的可预测部分,并且然后基于实际计数与其预测计数有多少不同来应用触发逻辑。这种方法可以调节可预测的时间序列波动,诸如一天中的时间。例如,这种方法将日期变化排除在有助于触发决策之外,从而导致活动的预期增加例如,在早上不会被误认为是激增。为了建立这样的模型,本说明书中描述的实施例收集训练数据,并使用正则化回归模型来产生可解释的预测模型。这种预测模型给出了改进的激增检测机制。图1示出了用于检测和表征数据流中的信号的示例系统100。该系统从诸如微博源的数据源接收诸如微博内容例如,推特和转推102的数据,该数据被馈送到系统的3个不同部分:数据分析引擎104、用户质量数据库106和搜索索引108。数据分析引擎104为与主题或查询相关联的数据例如,微博生成时间序列。用户质量106数据库为创作微博的用户确定用户质量分数和用户位置。搜索索引108对微博内容进行编索引。该系统还包括相关性分析引擎110。在操作中,用户使用计算设备112将查询输入搜索引擎。由相关性分析引擎110接收该查询在某些情况下经由搜索引擎前端。在步骤A处,相关性分析引擎110将查询转发给数据分析引擎104。在步骤B处,数据分析引擎104向相关性分析引擎110返回微博计数的历史分布,例如,在诸如过去几天的相关时间段内的查询的微博计数的时间序列。数据分析引擎104还可以向相关性分析引擎110返回关于相关微博的位置的数据和相关联的标签数据。在本说明书中描述的某些实施例中,当微博包含实质性查询词语或实质性查询词语的同义词时,微博例如,推特与查询相关联。然而,在一个实施例中,如果该查询包括多于一个的实质性词语,并且微博仅具有实质性词语中的一个,则不会被视为与该查询相关联。例如,仅提到奥巴马的微博不会被计入查询[奥巴马·特朗普]中。某些实施例还消除了非实质性词语。实质性词语会因上下文而异。例如,查询“thewho”,其中词语“the”非常具有实质性。在某些实施例中,从相关性分析引擎110到数据分析引擎104的查询仅考虑查询的文本和微博的文本。来自数据分析引擎104的响应通知相关性分析引擎110关于相关微博中的多维模式。知晓这些模式后,相关性引擎110向搜索索引108发出查询,该搜索索引108可以由于becauseof以下任意组合将微博例如,推特与该查询相关联:微博的时间戳、发布微博的国家、微博中的标签、微博中提及的实体例如,JoeCelebrity或奥运会、发布微博的区域sub-country位置、微博中提及的微博用户名、以及微博中的词语单字或短语。基于从数据分析引擎104接收的分布数据,相关性分析引擎110确定响应于查询是采取动作例如,通知用户,还是将微博内容包括在由相关联的搜索引擎提供的搜索结果中。如果相关性分析引擎110响应于用户提交的查询确定微博内容应该包括在搜索结果中,则相关性分析引擎110向搜索索引108发送查询,并接收相关微博内容作为回报return。图2是用于检测和表征数据流中的信号例如,微博计数时间序列中的信号的示例过程200的流程图。为了方便起见,过程200将被描述为由位于一个或多个位置的一个或多个计算机的系统执行,并且根据本说明书适当地编程。例如,用于检测和表征数据流中信号的系统例如,图1的系统100经过适当地编程,可以执行方法200。该方法的一个实施例包括接收202查询,例如,用户输入搜索引擎的查询;例如,从数据分析引擎获得204在相关时间段内的与查询相关联的微博的微博计数时间序列;例如,在相关性分析引擎处提取206微博计数时间序列的可预测部分,以产生剩余residual时间序列,该剩余时间序列包括连续时间的剩余微博计数;基于剩余时间序列例如,在相关性分析引擎处确定208剩余触发阈值;以及当剩余微博计数超过剩余触发阈值时,转发以用于显示210例如,通过相关性分析引擎表示作为查询的搜索结果的一部分的微博内容的数据。在一个实施例中,在微博轮播中提供微博内容作为搜索结果的一部分。在另一实施例中,微博内容被简单地包括在搜索结果中。因此,本说明书中描述的某些实施例与现实世界中发生的事情例如,新闻事件和相关性分析引擎110确定系统应该采取诸如向用户提供通知的动作的时间之间的延迟相关。时间线可以进展如下:新闻事件发生;5分钟过后,并且与对新闻事件的查询相关联的微博计数例如,推特计数开始上升;10分钟过后,并且相关性分析引擎110确定系统应该采取动作即相关性分析引擎确定相关查询的微博计数相对于预测的计数存在“激增”;相关联的搜索引擎响应于相关查询开始以搜索结果显示微博。本说明书中描述的实施例缩短了相关性分析引擎确定系统应该采取动作的时间。图3是用于识别和表征事件数据流中包含的信号的替代方法的流程图。所示方法300包括:获得302在相关时间段内的与主题相关联的事件计数的历史时间分布;例如,在相关性分析引擎处提取304事件计数的历史时间分布的可预测部分,以产生包括连续时间的剩余事件计数的剩余事件计数时间分布;基于剩余事件计数时间分布例如,在相关性分析引擎处确定306剩余触发阈值;以及当剩余事件计数超过剩余触发阈值时,例如,在相关性分析引擎处采取308动作。在一个实施例中,事件计数是在某时间间隔区段bucket内创建的与查询匹配的微博例如,推特的数量。本示例中的“事件”是对相关微博的创建。然而,事件也可以是对其他形式的社交媒体、学术文章或反映正在发生的事件的其他内容的创建。如上所述,本说明书中描述的实施例收集训练数据,并使用正则化回归模型来产生可解释的预测模型。在推导预测模型时,可以使用最小绝对收缩和选择算子leastabsoluteshrinkageandselectionoperator,LASSO回归。在统计学和机器学习中,LASSO是一种回归分析方法,其执行变量选择和正则化两者,以便提高其产生的统计模型的预测精度和可解释性。为了推导出预测模型,可以在一段时间内收集大量不同查询的时间序列。这样的历史数据集其包括诸如推特计数的时间序列时间戳或全局独立于查询的时间序列等属性是用于构建机器学习模型的训练集,该模型预测给定查询的下一区段微博计数。因此,本说明书中描述的实施例使用预测模型来预计近实时事件计数的可预测部分,例如,预计与给定查询或主题相关联的微博计数时间序列的可预测部分。一般而言,可解释性是可取的,但不是必需的。比LASSO更难解释的模型也可以在这种背景下使用。这种不太具有可解释性的模型通常可以给出更准确的预测,但是更难调试。例如,有可能使用神经网络来代替。时间序列是在连续时间处获得的一系列数量值,这些数量值之间的间隔通常相等。在某些实施例中,以相等的时间间隔收集微博计数,这些时间间隔可以被称为区段。区段的大小是精确度和召回率recall之间的折衷。区段越大,系统的实施例对信号越有信心,但是系统的实施例将越晚确定计数的激增。该系统的实施例从图1的数据分析引擎104获得微博计数时间序列数据,诸如重叠60分钟区段的多天历史,以产生30分钟区段,其中每个30分钟区段包括30分钟时段内的微博例如,推特的计数。换句话说,记录的计数是60分钟的计数,但是以30分钟的间隔写入,以开发具有30分钟间隔的微博计数时间序列。然后,系统的一个实施例从微博计数时间序列中提取时间序列的可预测部分由上述预测模型提供的,以产生剩余时间序列。因此,剩余时间序列包括连续时间间隔例如,在30分钟区段中的剩余微博计数。然后,系统的该实施例基于剩余时间序列确定触发阈值。在一个实施例中,触发阈值等于中值’+x’*IQR’,其中中值’=中值残差,IQR’=四分间距残差,x’是调整参数,残差=[残差-1,残差-2,....,残差-K],残差-i=分子-i-预测_分子-i,i在[1,...,K]中;之前区段的数量numbucketsago:i=1是最近的区段,i=2是第二近的区段。区段的数量可以在例如从12至192个半小时区段的范围内。在其他实施例中,区段的大小可以变化,例如,从1分钟至2小时。在进一步的实施例中,四分间距可以用微博计数可变性的不同测量值来代替。在某些实施例中,调整参数x’是常数。设置调整参数,以便系统定期地触发真实事件但很少触发垃圾邮件,例如,廉价酒店的广告,并且从而系统在接近事件的实际时间触发。再者,触发可以是各种动作,诸如响应于查询通知用户或者将相关微博内容包括在搜索结果中。在一个实施例中,系统平衡误报falsepositives当这样的事件实际上没有正在激增spiking时,指示事件在微博上正在激增和漏报falsenegatives当事件实际上正在激增时,不指示事件相关的激增正在微博上发生。如果系统降低常数并因此降低阈值,则系统将更积极地触发例如,通知或将微博内容包括在搜索结果中。可以使用人工评分者和历史数据来设置调整参数。使用历史数据的存储库,可以用具有给定调整参数的“重放时间”,以查看系统何时触发给定查询,例如,通知。然后,可以基于对所讨论的事件的实际定时和上下文的了解来考虑该调整参数是导致系统触发得太早还是太晚。可以对数百或数千个查询使用一个调整参数,并将所有得到的触传发送给人工评分者。人工评分者可以指出不准确的触发以及应该如何调整触发。在某些实施例中,对于运动查询,常数被设置得较低,而对于其他查询,常数被设置得较高。对于只要该模型告诉它微博计数正在激增,以及对于在微博计数最后一次激增之后的附加小时数例如,2小时,该系统的一个实施例在搜索结果中包括微博。图4示出了对于与查询例如,对于“纽约市列车停运”的查询匹配的事件例如,诸如推特的社交媒体数据的事件计数时间序列数据的两个图表。上图表显示了使用等于中值+iqr_乘数*iqr的触发阈值的方法,其中,中值是在指定的最近时间段例如,过去几天对匹配指定的查询的微博的微博计数的中值,iqr是其四分间距,以及iqr_乘数为常数。下图表使用了图2所示的残差方法residualmethod。从图4中可以看出,图2的方法提供了对与查询“纽约市列车停运”相关联的微博计数的激增的更早检测和更多检测。图5示出了对于与查询匹配的事件例如,诸如推特的社交媒体数据的事件计数时间序列数据的两个图表,其中图表揭示了当使用图2的方法时避免触发较慢的增加。上图表再次显示了使用等于中值+iqr_乘数*iqr的触发阈值的方法。从图5的下图表中可以看出,如果计数的增加是可预测的,则图2的方法可以不触发例如通知用户或将微博内容包括在搜索结果中,而即使微博计数的增加是可预测的,上图表使用的方法也将在某些情况下触发。一旦触发例如,将微博内容包括在搜索结果中发生,图1的相关性分析引擎110的一个实施例就将表示作为查询的搜索结果的一部分的微博内容的数据转发给搜索引擎前端,该搜索引擎前端又转发给用户设备。图6是嵌入在作为某些实施例的操作的结果的搜索结果页面中示出的社交媒体轮播的示例。本发明的某些实施例不需要查询来启动检测与主题相关联的近实时内容中的激增的过程。只要以某种方式获得感兴趣的主题,本说明书中描述的系统和方法的实施例就可以用于在关于事件的内容正在激增时准确地通知用户该事件。这种准确的通知可以反映在应用度量中,例如,用户参与度量。实施例还可以将微博计数时间序列限制在特定位置。微博用户经常维护包括微博用户的位置的公共档案。此外,实施例可以使用微博用户的位置和查询来识别相关的标签,例如,如果旧金山发生地震并且用户搜索旧金山,则系统可以扩展微博内容的检索,以包括与相关标签相关联的内容,诸如#sf地震。除了微博计数之外,近实时事件计数还可以包括各种类型的数据,包括社交媒体计数和其他出版物,例如,学术出版物或新闻出版物。除了微博数据之外或代替微博数据,还可以使用其他类型的近实时数据。本说明书中描述的主题和功能操作的实施例可以在数字电子电路、有形体现的计算机软件或固件、计算机硬件包括本说明书中公开的结构及其结构等同物中实施,或者在它们中的一个或多个的组合中实施。本说明书中描述的主题的实施例可以被实施为一个或多个计算机程序,即编码在有形非暂时性存储介质上的计算机程序指令的一个或多个模块,以用于由数据处理装置执行或控制数据处理装置的操作。计算机存储介质可以是机器可读存储设备、机器可读存储基底、随机或串行访问存储器设备,或者它们中的一个或多个的组合。可替代地或附加地,程序指令可以被编码在人工生成的传播信号上,例如,机器生成的电、光或电磁信号,该信号被生成以编码信息,以用于传输到合适的接收器装置以由数据处理装置执行。术语“数据处理装置”指的是数据处理硬件,并且涵盖用于处理数据的各种装置、设备和机器,例如,包括可编程处理器、计算机、或多个处理器或计算机。该装置还可以是或进一步包括专用逻辑电路,例如,FPGAfieldprogrammablegatearray,现场可编程门阵列或ASICapplication-specificintegratedcircuit,专用集成电路。除了硬件之外,该装置可以可选地包括为计算机程序创建执行环境的代码,例如,构成处理器固件的代码、协议栈、数据库管理系统、操作系统或它们中的一个或多个的组合。计算机程序也可以被称为或描述为程序、软件、软件应用、应用程序、模块、软件模块、脚本或代码,该计算机程序可以用任何形式的编程语言编写,包括编译或解释语言、或者声明性或程序性语言;并且它可以以任何形式部署,包括作为独立程序或作为模块、组件、子例程或适合在计算环境中使用的其他单元。程序可以但不一定对应于文件系统中的文件。程序可以被存储在保存其他程序或数据的文件的一部分例如,存储在标记语言文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者存储在多个协调文件例如,存储一个或多个模块、子程序或部分代码的文件中。计算机程序可以在一台计算机或在被部署为在位于一个站点或跨多个站点分布并通过数据通信网络互连的多台计算机上执行。本说明书中描述的过程和逻辑流程可以由一个或多个可编程计算机执行,该可编程计算机执行一个或多个计算机程序,以通过对输入数据进行操作并生成输出来执行功能。过程和逻辑流程也可以由专用逻辑电路例如,FPGA或ASIC,或者由专用逻辑电路和一个或多个编程计算机的组合来执行。适于执行计算机程序的计算机可以基于通用或专用微处理器或两者,或者任何其他类型的中央处理单元。通常,中央处理单元将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于执行或运行指令的中央处理单元和用于存储指令和数据的一个或多个存储器设备。中央处理单元和存储器可以由专用逻辑电路补充或合并到专用逻辑电路中。通常,计算机还将包括用于存储数据的一个或多个大容量存储设备,例如,磁盘、磁光盘或光盘,或者被可操作地耦合以从一个或多个大容量存储设备接收数据或传送数据到其或者两者皆可。然而,计算机不需要这样的设备。此外,计算机可以被嵌入到另一设备中,例如,移动电话、个人数字助理personaldigitalassistant,PDA、移动音频或视频播放器、游戏控制台、全球定位系统GlobalPositioningSystem,GPS接收器或便携式存储设备,例如,通用串行总线universalserialbus,USB闪存驱动器,仅举几例。适于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备,例如,包括半导体存储器设备例如,EPROMErasableProgrammableReadOnlyMemor,可擦除可编程只读存储器、EEPROMElectricallyErasableProgrammableReadOnlyMemory,电可擦可编程只读存储器和闪存设备;磁盘例如,内部硬盘或可移动磁盘;磁光盘;以及CD-ROM和DVD-ROM盘。为了提供与用户的交互,本说明书中描述的主题的实施例可以在计算机上实施,该计算机具有用于向用户显示信息的显示设备,例如,CRTcathoderaytub,阴极射线管或LCDliquidcrystaldisplay,液晶显示器,以及键盘和定点设备,例如,鼠标或轨迹球,用户可以通过该定点设备向计算机提供输入。也可以使用其他类型的设备来提供与用户的交互;例如,提供给用户的反馈可以是任何形式的感觉反馈,例如,视觉反馈、听觉反馈或触觉反馈;并且可以以任何形式接收来自用户的输入,包括声音、语音或触觉输入。另外,计算机可以通过向用户使用的设备发送文档和从用户使用的设备接收文档来与用户交互;例如,通过响应于从网络浏览器接收的请求,向用户设备上的网络浏览器发送网页。并且,计算机可以通过向个人设备例如,智能手机发送文本消息或其他形式的消息、运行消息传递应用、以及从用户接收响应消息作为回报来与用户交互。本说明书中描述的主题的实施例可以在计算系统中实施,该计算系统包括后端组件例如,作为数据服务器,或者包括中间件组件例如,应用服务器,或者包括前端组件例如,具有图形用户界面的客户端计算机、网络浏览器或应用,用户可以通过其与本说明书中描述的主题的实施方式交互,或者一个或多个这样的后端、中间件或前端组件的任意组合。系统的组件可以通过任何形式或介质的数字数据通信例如,通信网络相互连接。通信网络的示例包括局域网localareanetwork,LAN和广域网wideareanetwork,WAN,例如,因特网。计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离,并且典型地通过通信网络进行交互。客户端和服务器的关系是借助在各自的计算机上运行的并且彼此之间具有客户端-服务器关系的计算机程序产生的。在一些实施例中,服务器将数据例如,超文本标记语言hypertextmarkuplanguage,HTML页面传输到用户设备,例如,用于向与充当客户端的设备交互的用户显示数据和从该用户接收用户输入的目的。在用户设备处生成的数据例如,用户交互的结果可以在服务器处从设备接收。在本说明书中,术语“数据库”将被广泛用于指代任何数据集合:数据不需要以任何特定的方式结构化,或者根本不需要结构化,并且它可以被存储在一个或多个位置中的存储设备上。因此,例如,索引数据库可以包括多个数据集合,每个数据集合可以被不同地组织和访问。类似地,在本说明书中,术语“引擎”将被广泛地用来指代能够执行一个或多个特定功能的基于软件的系统或子系统。通常,引擎将被实施为安装在一个或多个位置中的一个或多个计算机上的一个或多个软件模块或组件。在某些情况下,一个或多个计算机将专用于特定的引擎;在其他情况下,可以在同一个或多个计算机上安装并运行多个引擎。虽然本说明书包含许多具体的实施细节,但这些不应解释为对任何发明的范围或可能要求保护的范围的限制,而是对特定于特定发明的特定实施例的特征的描述。本说明书中在单独的实施例的上下文中描述的某些特征也可以在单个实施例中组合实施。相反,在单个实施例的上下文中描述的各种特征也可以在多个实施例中单独或以任何合适的子组合来实施。此外,尽管上述特征可以被描述为以某些组合起作用,并且甚至最初被要求如此的保护,但是在一些情况下,来自所要求保护的组合的一个或多个特征可以从该组合中删除,并且所要求保护的组合可以指向子组合或子组合的变型。类似地,虽然在附图中以特定顺序描述了操作,但这不应理解为要求以所示的特定顺序或依次顺序执行这些操作,或者要求执行所有所示的操作,以获得期望的结果。在某些情况下,多任务处理和并行处理可能是有利的。而且,上述实施例中各种系统模块和组件的分离不应理解为在所有实施例中都需要这种分离,并且应理解,所描述的程序组件和系统通常可以被集成在单个软件产品中或者打包到多个软件产品中。已经描述了主题的特定实施例。其他实施例在所附权利要求的范围内。例如,权利要求中列举的动作可以以不同的顺序执行,并且仍然获得期望的结果。作为一个示例,附图中描述的过程不一定需要所示的特定顺序或依次顺序来获得期望的结果。在某些情况下,多任务处理和并行处理可能是有利的。
权利要求:1.一种系统,包括:一个或多个计算机和一个或多个存储设备,在所述一个或多个存储设备上存储指令,所述指令当被所述一个或多个计算机运行时,可操作以使得所述一个或多个计算机执行包括以下的操作:a获得在相关时间段内的与主题相关联的事件计数的历史时间分布;b提取事件计数的历史时间分布的可预测部分,以产生包括连续时间的剩余事件计数的剩余事件计数时间分布;c基于剩余事件计数时间分布确定剩余触发阈值;以及d当剩余事件计数超过所述剩余触发阈值时采取动作。2.根据权利要求1所述的系统,其中,所述动作为向用户提供与所述主题相关联的事件计数的激增的通知。3.根据权利要求1所述的系统,其中,所述事件是微博,并且所述动作是转发数据以将微博数据作为搜索结果的一部分来显示。4.一种系统,包括:一个或多个计算机和一个或多个存储设备,在所述一个或多个存储设备上存储指令,所述指令当被所述一个或多个计算机运行时,可操作以使得所述一个或多个计算机执行包括以下的操作:a接收查询;b获得在相关时间段内的与所述查询相关联的微博的微博计数时间序列;c提取所述微博计数时间序列的可预测部分,以产生剩余时间序列,所述剩余时间序列包括连续时间的剩余微博计数;d基于所述剩余时间序列确定剩余触发阈值;以及e当剩余微博计数超过所述剩余触发阈值时,转发表示作为所述查询的搜索结果的一部分的微博内容的数据以用于显示。5.根据权利要求4所述的系统,其中,机器学习模型预测所述微博计数时间序列的可预测部分。6.根据权利要求4所述的系统,其中,所述操作还包括:在超量的微博计数掉落到所述阈值以下之后,不包括作为所述查询的搜索结果的一部分的所述微博内容达指定时间。7.根据权利要求4所述的系统,其中,所述微博计数是推特计数。8.根据权利要求4所述的系统,其中,确定剩余触发阈值至少部分基于所述剩余时间序列的中值和所述剩余时间序列的方差的测量。9.根据权利要求4所述的系统,其中,所述操作还包括:在确定是否提供附加微博内容作为查询的搜索结果的一部分时,将用户交互与所提供的微博内容合并。10.根据权利要求4所述的系统,其中,所述方法还包括:将所述微博计数时间序列限制到于来自特定位置的微博。11.一种计算机实施的方法,包括:a接收查询;b获得在相关时间段内的与所述查询相关联的微博的微博计数时间序列;c提取所述微博计数时间序列的可预测部分,以产生剩余时间序列,所述剩余时间序列包括连续时间的剩余微博计数;d基于所述剩余时间序列确定剩余触发阈值;以及e当剩余微博计数超过所述剩余触发阈值时,转发表示作为所述查询的搜索结果的一部分的微博内容的数据以用于显示。12.根据权利要求11所述的方法,所述方法还包括:在超量的微博计数掉落到所述阈值以下之后,不包括作为所述查询的搜索结果的一部分的所述微博内容达指定时间。13.根据权利要求11所述的方法,其中,所述微博计数是推特计数。14.根据权利要求11所述的方法,其中,所述相关时间段为在1至7天之间。15.根据权利要求11所述的方法,其中,机器学习模型预测所述微博计数时间序列的可预测部分。16.根据权利要求11所述的方法,其中,确定剩余触发阈值至少部分基于所述剩余时间序列的中值和所述剩余时间序列的方差的测量。17.根据权利要求11所述的方法,其中,所述方法还包括:向用户传达所述剩余微博计数反映应该通知用户的事件的置信度度量,所述置信度度量至少部分基于所述剩余微博计数超过所述触发阈值的程度。18.根据权利要求11所述的方法,其中,所述方法还包括:在确定是否提供附加微博内容作为查询的搜索结果的一部分时,将用户交互与所提供的微博内容合并。19.根据权利要求11所述的方法,其中,所述方法还包括:将所述微博计数时间序列限制到于来自特定位置的微博。20.根据权利要求11所述的方法,所述方法进一步包括:a确定在相关时间段内的微博计数的中值;b确定所述微博计数在相关时间段内的可变性的可变性测量;c至少部分基于所述中值和所述可变性度量来确定第二触发阈值;以及d如果所述微博计数超过所述剩余触发阈值或第二触发阈值,则显示轮播。
百度查询: 谷歌有限责任公司 用于识别和表征数据流中包含的信号的系统和方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。