文献综述(或调研报告):
(要详细,可跨页,包括国内外有关研究等,综述中引用了参考文献的要标注,综述之后要列出参考文献,不少于10篇)
今日头条所展示的内容,主要是文本、音频、视频三大类,每天新增的数据可谓是数以万计。如何将这些数据有效地组织起来,我们不仅仅需要这些内容的原始信息,我们还需要依赖这些原始信息,进行特征提取,以供审核、推荐、排查等等业务使用。
特征提取本质上是一个简化信息的过程,我们无法大量地直接通过原始信息以求窥知内容的全貌,因而我们需要对内容进行特征提取,用不同的模型计算相关的特征值,然后这些特征值将会作为后续工作的重要依据。因而,特征提取是整个头条业务线中相当重要的一个环节,没有特征提取的工作,数以万计的数据量将无法被有效地甄别、组织和推荐。
特征提取,在如今的信息时代背景下,已经是非常普遍了,其需求产生的源头一般是希望通过特征有效地组织大规模的数据,抑或是通过特征值来作为一种指标对内容进行甄别或判断。例如Foram P. Shah[1]等将特征提取应用于文本分类,以有效地组织大数据量的文档信息。再如Jigisha M. Patel[2]等则将利用特征提取应用于大规模图像数据库的图片检索。另外,Poomipat Boonyakitanont[3]等则对脑电图进行特征提取用以检测癫痫发作,以期为后续的专家诊断提供初步的参考结果。
而我们的工作主要是针对如何组织复杂特征的提取流程,保证特征计算的有序执行,特征计算本身不是我们关心的主要内容,当然因为业务间的联系性,也会偶有涉及。
说到如何组织特征提取的流程,就必须提及我们在实际工程中重点应用的图论算法——拓扑排序。拓扑排序作为一个比较成熟、方便操作的图论算法,在学术上一直是被讨论的焦点,在工程上也被应用于相当广泛的领域。
学术探索上,Deepak Ajwani[4]等提出了一种高效的针对大图的拓扑排序算法;而Y. L. Varol[5]则讨论了一种算法得以一次性得到某有向无环图的所有拓扑排序的可行解;此外,M. Eklund[6]等则是利用拓扑排序的节点序列获取的可并行性,讨论了一种拓扑排序算法在GPU下的简易实现,P. Harish[7]等就更进一步,利用CUDA加速了大型网络的拓扑排序的结果获取。
在工程上,拓扑排序也被广泛地应用于解决各种图论相关的问题。例如Orest Lavriv[8]等人将拓扑排序应用于入侵检测系统,他们将一个服务传递结构表示为一个有向无环图,然后使用拓扑排序的方式去遍历这张图,在遍历的过程中检测节点的功能是否正常,这是将拓扑排序作为了图的一种遍历方式。再如,Shiyong Zhu[9]等人则利用拓扑排序算法分析PLN网络的有限状态机(同样抽象成有向无环图),得到了一些具有启发性的结论。另外,张鲁豫[10]则利用拓扑排序研究、处理课程之间的偏序关系,利用这种自然上的偏序关系结合拓扑排序算法将课程全序化,从而实现课程教学计划的制定。
总而言之,拓扑排序算法被诸多学者应用于各类工程应用中,当然其面临的情境都需要进行抽象,且都需要抽象为有向无环图(dag),拓扑排序算法才能成功适用。本质上,拓扑排序就是利用节点间的偏序关系,得到图的一个全序节点序列。这对于我们的工作情景也是完美适用的,因为我们也是通过模型来计算特征值,一个模型就可以抽象为一个节点,逻辑上模型节点间是存在偏序关系的,而我们就是要利用这个关系,得到可以使得最终的特征输出可以顺利产出的节点执行顺序,所以拓扑排序算法可以说是完美地切合了我们的应用场景。
以上是文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。